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内 容 提要 


R 具有 强大 的 统计 计算 功能 和 便捷 的 数据 可 视 化 系统 。 本 书 重 点 讲解 R 的 绘图 系 
统 ， 指 导读 者 通过 绘图 系统 实现 数据 可 视 化 。 


书 中 提供 了 快速 绘制 高 质量 图 形 的 150 多 种 技巧 ， 每 个 技巧 用 来 解决 一 个 特定 的 
绘图 需求 。 读 者 可 以 通过 目录 快速 定位 到 自己 过 到 的 问题 ， 查 阅 相 应 的 解决 方案 。 
同时 ， 作 者 在 大 部 分 的 技巧 之 后 会 进行 一 些 讨论 和 延伸 ， 介 绍 一 些 总 结 出 的 绘图 
技巧 。 


本 书 侧重 于 解决 具体 问题 ， 是 R 数据 可 视 化 的 实战 秘籍 。 本 书 中 绝 大 多 数 的 绘图 
案例 都 是 以 强大 、 灵 活 制图 而 著称 的 R 包 ggplot2 实现 的 ， 充 分 展现 了 ggplot2 生 
动 、 翔 实 的 一 面 。 从 如 何 画 点 图 、 线 图 、 柱 状 图 ， 到 如 何 添加 注解 、 修 改 坐 标 轴 
和 图 例 ， 再 到 分 面 的 使 用 和 颜色 的 选取 等 ， 本 书 都 有 清晰 的 讲解 。 虽 然 本 书 的 大 
多 数 技巧 使 用 的 是 ggplot2， 但 是 并 不 仅仅 局 限于 ggplot2 的 介绍 。 作 者 的 理念 是 
用 合适 的 工具 来 完成 合适 的 绘图 任务 ， 读 者 也 可 以 学 到 许多 其 他 有 用 的 绘图 函数 
和 工具 ， 来 适应 各 种 复杂 的 需求 。 


本 书 是 学 习 R 中 丰富 的 数据 可 视 化 方法 的 权威 手册 ， 非 常 适合 对 R 语言 有 基本 的 
了 解 的 读者 阅读 。 


O’Reilly Media, Inc. 介 绍 


O'Reilly Media 通 过 图 书 、 杂 志 、 在 线 服 务 、 调 查 研究 和 会 议 等 方式 传播 创新 知识 。 自 1978 年 
开始 ，O"Reilly 一 直 都 是 前 沿 发 展 的 见证 者 和 推动 者 。 超 级 极 客 们 正在 开创 着 未 来 ， 而 我 们 关 
注 真正 重要 的 技术 趋势 一 一 通过 放大 那些 “细微 的 信号 ”来 刺激 社会 对 新 科技 的 应 用 。 作 为 
技术 社区 中 活跃 的 参与 者 ，O"Reilly 的 发 展 充满 了 对 创新 的 倡导 、 创 造 和 发 扬 光 大 。 


O"Reilly 为 软件 开发 人 员 带 来 革命 性 的 “动物 书 ”， 创建 第 一 个 商业 网 站 (GNN) ; 组织 了 
影响 深远 的 开放 源 代码 峰会 ， 以 至 于 开源 软件 运动 以 此 命名 ， 创 立 了 Make 杂 志 ， 从 而 成 为 
DIY 革 命 的 主要 先锋 ， 公 司 一 如 既往 地 通过 多 种 形式 缔结 信息 与 人 的 纽带 。O'"Reilly 的 会 议和 
峰会 集聚 了 众多 超级 极 客 和 高 瞻 远 眠 的 商业 领袖 ， 共 同 描绘 出 开创 新 产业 的 革命 性 思想 。 作 
为 技术 人 士 获 取信 息 的 选择 ，O’Reilly 现 在 还 将 先锋 专家 的 知识 传递 给 普通 的 计算 机 用 户 。 无 
论 是 通过 书籍 出 版 ， 在 线 服 务 或 者 面授 课程 ， 每 一 项 O"Reilly 的 产品 都 反映 了 公司 不 可 动摇 的 
理念 一 一 信息 是 激发 创新 的 力量 。 


业界 评论 
“O"Reilly Radar 博 客 有 口 尼 碑 。” 
一 一 Wired 
“O'Reilly 和 凭借 一 系列 (真希 望 当 初 我 也 想到 了 ) 非凡 想法 建立 了 数 百 万 美元 的 业务 。” 
一 一 Business 2.0 
“O'Reilly Conference 是 聚集 关键 思想 领袖 的 绝对 典范 。” 
-一 一 CRN 
“一 本 O'Reilly 的 书 就 代表 一 个 有 用 、 有 前 途 、 需 要 学 习 的 主题 。” 
一 一 Irish Times 
Tim 是 位 特 立 独行 的 商人 ， 他 不 光 放 眼 于 最 长 远 、 最 广阔 的 视野 并 且 切 实地 按照 
Yogi Berra 的 建议 去 做 了 : “如 果 你 在 路 上 遇 到 岔路 口 ， 走 小 路 (岔路 ) 。 ”回顾 
过 去 Tim 似 乎 每 一 次 部 选择 了 小 路 ,而 且 有 几 次 都 是 一 闪 即 逝 的 机 会 ， 尽管 大 路 也 
不 错 。” 


-一 一 Linux Journal 





译 者 序 


R 官方 网 站 的 第 一 句 话 是 这 样 介绍 及 语言 的 :“R 是 一 个 用 于 统计 计算 和 绘图 的 自由 
软件 环境 。” 这 人 句 话 突出 了 R 的 两 大 特色 : 强大 的 统计 计算 功能 和 便捷 的 数据 可 视 化 
系统 。 在 很 多 情况 下 ， 当 我 们 将 R 与 其 他 同类 的 语言 、 软 件 进行 比较 时 ， 通 常 都 会 强 
调 其 灵活 的 编程 和 计算 能 力 ， 然 而 事实 上 ，R 的 绘图 系统 也 是 其 最 大 的 优势 之 一 。 


经 过 长 年 的 开发 和 完善 ， 目 前 R 主要 支持 了 四 套图 形 系 统 : 基础 图 形 (base)、 网 格 
图 形 (grid)、lattice 图 形 和 ggplot2。 其 中 前 三 个 都 内 置 于 R 的 发 行 包 ， 其 功能 已 经 非 
常 稳定 ， 而 最 为 年 轻 的 ggplot2 (最 早 开发 于 2005 年 ) 在 历经 若干 次 重大 更 新 后 ， 也 
逐渐 成 为 了 R 中 数据 可 视 化 的 主流 选择 。 由 于 ggplot2 具有 强大 的 语法 特性 和 优雅 的 
图 形 外 观 ， 它 迅速 吸引 了 众多 的 使 用 者 和 开发 者 ， 并 已 经 开始 被 移植 到 其 他 语言 中 ， 
如 Python、Julia 等 。 可 以 说 ，ggplot2 与 R 中 传统 的 图 形 系统 形成 了 良好 的 互补 : 
后 者 适合 快速 的 数据 探索 性 分 析 ， 而 前 者 则 可 以 便捷 地 生成 复杂 的 、 高 质量 的 统计 
图 形 。 

本 书 中 绝 大 多 数 的 绘图 案例 都 是 基于 ggplot2 实现 的 ， 在 某 种 意义 上 ， 本 书 可 以 认为 
是 一 部 优秀 的 ggplot2 入 门 和 进 阶 手册 。 正 如 之 前 所 说 ，ggplot2 之 所 以 强大 ， 是 因为 
它 不 仅仅 是 一 些 函数 的 堆砌 ， 而 是 有 其 内 在 的 语法 支持 。 因 为 这 些 特 点 ，ggplot2 看 上 
去 更 像 是 一 门 新 的 “语言 "， 从 而 需要 使 用 者 有 一 个 学 习 和 熟练 的 过 程 。 


我 们 知道 ， 学 习 一 门 语言 (中 文 、 英 语 、C++、R 等 )， 大 体 都 要 经 过 一 个 从 语法 到 词 
汇 ， 再 到 句法 应 用 的 过 程 。ggplot2 的 作者 Hadley Wickham 曾 写 过 一 本 介绍 ggplot2 核 
心思 想 的 书籍 《ggplot2: Elegant Graphics for Data Analysis》， 其 中 介绍 了 ggplot2 的 基 
本 概念 和 用 法 ， 相 当 于 为 读者 搭 起 了 ggplot2 的 “语法 ”框架 ， 而 本 书 则 是 一 本 丰富 、 
有 趣 的 “词汇 和 例句 书 ”。 换 句 话 说， 本 书 侧重 于 解决 具体 问题 ， 是 一 本 实战 秘籍 : 通 
过 它 读者 可 以 了 解 到 ggplot2 生动 、 翔 实 的 一 面 。 比 如 ， 从 如 何 画 点 图 、 线 图 、 柱 状 
图 ， 到 如 何 添加 注解 、 修 改 坐 标 轴 和 图 例 ， 再 到 分 面 的 使 用 和 颜色 的 选取 等 ， 本 书 都 
有 清晰 的 讲解 。 


本 书 由 150 多 个 精 选 的 “技巧 ”组 成 ， 每 个 “技巧 ”都 用 来 解决 一 个 特定 的 绘图 需求 。 
读者 可 以 通过 章节 的 目录 快速 定位 到 自己 遇 到 的 问题 ， 然 后 查阅 相应 的 解决 方案 。 同 
时 ， 作 者 在 大 部 分 的 “技巧 ”之 后 会 进行 一 些 讨论 和 延伸 ， 介 绍 一 些 总 结 出 的 绘图 技 
巧 。 就 我 自己 的 经 历 而 言 ， 在 阅读 本 书 之 前 ， 有 时 用 ggplot2 作 图 会 直到 一 些 非常 细 
节 的 问题 ， 例 如 ， 如 何 调整 条 形 图 的 顺序 ， 如 何 修改 图 例 的 外 观 ， 如 何 选择 文字 的 大 


小 和 字体 ? 这 些 问题 都 会 让 我 花费 很 多 时 间 来 搜索 解决 方案 。 而 在 我 把 这 本 书 通读 一 
遍 之 后 ， 很 多 问题 立刻 迎刃而解 。 我 相信 ， 本 书 对 于 ggplot2 和 数据 可 视 化 的 学 习 都 
是 大 有 神 益 的 。 


当然 ， 本 书 并 不 仅仅 局 限于 ggplot2 的 介绍 。 作者 的 理念 是 用 合适 的 工具 来 完成 合适 
的 绘图 任务 ， 所 以 在 本 书 的 第 2 章 、 第 13 章 和 第 14 章 ， 读者 也 可 以 学 到 许多 其 他 有 
用 的 绘图 函数 和 工具 ， 来 适应 各 种 复杂 的 需求 。 


本 书 的 三 位 译 者 为 本 书 中 文 版 的 面世 付出 了 大 量 的 时 间 和 精力 ， 其 中 肖 楠 翻译 了 第 
7~11 章 和 附录 ， 邓 一 硕 翻译 了 第 2~6 章 ， 魏 太 云 翻译 了 前 言 、 第 1 章 和 第 12~15 章 。 
三 位 译 者 均 是 统计 之 都 (http://cos.name/) 的 成 员 ， 他 们 也 是 当前 国内 R 语言 社区 的 
领军 人 物 ， 曾 翻译 了 许多 R 语言 的 经 典 教材 和 书籍 ， 并 通过 组 织 中 国 R 语言 会 议 、 开 
办 COS 数据 分 析 沙 龙 、 参 与 论坛 问题 讨论 、 撰 写 博客 、 整 理 文档 、 编写 软件 包 等 多 种 
方式 为 及 语言 社区 做 出 了 诸多 贡献 。 值 得 一 提 的 是 ， 本 书 13.1 节 中 介绍 的 corrplot 软 
件 包 ， 正 是 由 译 者 之 一 的 魏 太 云 开 发 完成 的 。 统 计 之 都 团队 作为 国内 R 语言 最 早 的 一 
批 布道 者 之 一 ， 有 幸 见 证 了 R 语言 在 国内 兴起 的 整个 过 程 。 从 网 站 创始 人 谢 益 辉 开始 
在 个 人 博客 上 连载 R 语 言 的 教程 和 心得 ， 到 2008 年 第 一 届 中 国有 R 语言 会 议 的 召开 ， 
再 到 如 今 众多 RR 语言 中 文 版 书籍 的 面世 ， 我 相信 其 中 的 每 一 步 都 是 国内 统计 学 、 以 及 
更 广义 的 数据 科学 不 断 向 前 发 展 的 印记 。 我 们 也 希望 更 多 的 有 志 之 士 加 入 到 统计 之 都 
的 团队 之 中 ， 为 国内 统计 学 和 数据 科学 贡献 自己 的 力量 。 


本 书 的 译 者 力求 使 翻译 准确 、 生 动 ， 但 朴 漏 之 处 在 所 难免 ， 欢 迎 读者 予以 指正 。 为 了 
让 读者 方便 地 获取 和 提交 勘误 信息 ， 我 们 建立 了 本 书 的 翻译 项 目 页 面 : https://github. 
com/cosname/gcookbook-translation。 读 者 也 可 以 在 统计 之 都 的 图 书 出 版 栏目 http:// 
cos.name/books/)〉 留言 或 提问 。 


本 书 的 出 版 离 不 开 众多 人 士 的 大 力 帮助 ， 我 们 要 郑重 感谢 爱 荷 华 州 立 大 学 的 王 芷 同 
学 、 中 国人 民 大 学 的 陈 森 同 学 和 浙江 大 学 的 张 政 同 学 ， 他 们 在 本 书 的 翻译 过 程 中 提出 
了 很 多 中 肯 的 意见 。 没 有 他 们 的 帮助 ， 本 书 很 难 完成 。 此 外 ， 我 们 还 要 感谢 人 民 邮 电 
出 版 的 杨 海 玲 女 士 和 编辑 们 ， 他 们 的 专业 精神 让 我 叹服 。 


印 怡 轩 
2013 年 12 月 于 普 渡 大 学 


译 者 介绍 


肖 楠 ， 中 南大 学 数学 与 统计 学 院 统计 学 系 在 读 博 士 ， 统 计 之 都 论坛 R 语言 版 版 主 。 
合作 翻译 出 版 了 《R 语言 实战 》、《ggplot2: 数据 分 析 与 图 形 艺术 》 等 图 书 ， 编 写 了 
protr、Rcpi 等 R 软件 包 。 关 注 领域 为 统计 机 器 学 习 、 化 学 信息 学 与 生物 信息 学 、 定 量 
与 系统 药理 学 。 


邓 一 硕 ， 上 毕业 于 中 央 财 经 大 学 统计 与 数学 学 院 ， 统 计 之 都 论坛 金融 投资 分 析 版 版 主 ， 
现 效力 于 首钢 总 公司 计 财 部 。 擅 长 的 领域 为 时 间 序 列 分 析 以 及 数据 挖掘 在 金融 投资 分 
析 中 的 应 用 。 


魏 太 云 ， 毕 业 于 中 国人 民 大 学 统计 学 院 ， 统 计 之 都 理事 会 主席 。 合作 翻 译 出 版 了 
《ggplot2: 数据 分 析 与 图 形 艺术 》 等 图 书 ， 参 与 编写 了 corrplot、recharts、Kknitr 以 及 
fun 等 R 软件 包 。 感 兴趣 的 主题 包括 统计 建 模 、 机 器 学 习 和 数据 可 视 化 。 


审 校 者 介绍 


印 怡 轩 ， 普 渡 大 学 统计 系 在 读 博士 ， 统 计 之 都 理事 会 成 员 。 合 作 翻 译 出 版 了 《ggplot2: 
数据 分 析 与 图 形 艺 术 》、《R 语言 编程 艺术 》 等 图 书 ， 参 与 编写 了 R2SWF、rARPACK、 
showtext、Layer、rationalfun、fun 等 R 软件 包 。 感 兴趣 的 方向 有 函数 型 数据 分 析 、 统 
计 计算 和 数据 可 视 化 等 。 





几 年 前 读 研 时 我 开始 用 R， 主 要 用 来 分 析 我 在 科研 工作 中 收集 到 的 数据 。 我 使 用 R 首 
先是 想 摆脱 SPSS 这 样 的 统计 软件 的 禁 铀 ， 即 严格 的 环境 和 死板 的 分 析 。 更 何况 ，R 
是 免费 的 ， 所 以 我 用 不 着 说 服 别人 为 我 购买 一 套 这 样 的 软件 一 一 这 对 一 个 穷 研究 生来 
说 是 相当 的 重要 ! 此 后 ， 随 着 我 对 R 的 了 解 不 断 深 入 ， 我 才 发 现 原来 R 还 可 以 绘制 出 
非常 优秀 、 动 人 的 数据 图 形 。 


本 书 的 每 个 “技巧 ” 中 ， 都 列 出 了 一 个 问题 和 对 应 的 解决 方法 。 在 大 多 数 情况 下 ， 我 
提供 的 并 不 是 R 中 唯一 的 实现 方法 ， 但 却 是 我 认为 的 最 佳 方案 。R 如 此 受 欢迎 的 一 个 
重要 原因 是 它 有 很 多 附加 的 软件 包 ， 每 一 个 软件 包 都 为 R 提供 了 一 些 独 特 的 功能 。 在 
R 中 也 有 很 多 可 视 化 方面 的 软件 包 ， 但 本 书 主要 使 用 ggplot2 (声明: 我 现在 工作 的 一 
部 分 就 是 开发 ggplot2; 但 是 ， 在 我 还 没 意 识 到 我 可 能 会 从 事 与 ggplot2 相关 的 工作 之 
前 ， 我 已 经 完成 了 本 书 的 大 部 分 工作 )。 

本 书 并 不 想 罗 列 五 花 八 门 的 方法 ， 成 为 R 数据 可 视 化 的 综合 手册 ;但 是 我 希望 当 你 想 
绘制 所 需 图 形 的 时 候 ， 本 书 能 够 对 你 有 所 帮助 。 或 者 说 ， 当 你 不 知道 怎么 画 的 时 候 ， 
翻 一 翻 这 本 书 或 许 就 可 以 找到 一 些 可 行 的 方案 。 


方法 

本 书面 向 的 读者 需要 对 R 至 少 有 一 些 基本 的 了 解 。 书 中 的 技巧 会 让 你 明白 如 何 解决 一 
些 特定 的 问题 。 在 使 用 例子 的 时 候 ， 我 力图 简单 明了 ， 这 样 你 就 会 明白 它们 的 工作 机 
理 ， 并 可 以 方便 地 把 解决 方法 应 用 到 自己 的 问题 上 。 


软件 和 平台 说 明 


书 中 的 大 部 分 “技巧 ”都 是 用 ggplot2 完成 的 ， 有 些 “ 技 巧 ” 需 要 ggplot2 的 最 新 版 本 
0.9.3， 这 样 也 就 要 求 有 一 个 版 本 相对 较 新 的 R 一 一 你 可 以 在 R 的 官方 网 站 获取 最 新 版 
本 的 R。 





[人 如 果 你 对 ggplot2 不 熟悉 ， 请 参阅 附录 A， 那 里 对 该 包 有 一 个 简要 的 说 明 。 
Ca 
[a = 


安装 了 有 R 后 ， 你 可 以 再 安装 一 些 必要 的 包 。 除 了 ggplo 之 外 ， 你 还 可 以 选择 安装 
gcookbook 包 ( 它 包含 了 本 书 大 多 数 例子 的 数据 集 )。 要 同时 安装 这 两 个 包 ， 只 需 运行 命令 : 


install.packages ("ggplot2") 
install .packages ("gcookbook") 


你 可 能 会 被 问 到 选择 CRAN (Comprehensive R Archive Network) 镜像 的 问题 。 一 般 而 
言 ， 任 何 一 个 镜像 都 可 以 正常 工作 ， 不 过 最 好 选择 一 个 离 你 更 近 的 ， 因 为 这 样 速度 会 
更 快 。 安 装 完 包 后 ， 每 次 需要 使 用 ggplot2 包 时 在 R 会 话 中 运行 : 


library(ggplot2) 
本 书 中 的 技巧 总 是 假设 你 已 经 加 载 了 ggplot2， 所 以 不 会 显示 这 一 行 代码 。 
如 果 你 看 到 这 样 的 错误 ， 意 味 着 你 忘记 了 加 载 ggplot2。 

错误 : 找 不 到 函数 "ggplot" 
英文 版 R 的 错误 提示 是 : 

Error: could not find function "ggplot" 


R 的 主要 运行 平台 是 Mac OS X、Linux 和 Windows， 本 书 中 所 有 的 “技巧 ”都 可 以 在 
这 些 平 台 上 运行 。 在 保存 位 图 输出 的 时 候 ， 会 有 平台 的 差异 ， 详 情 参见 第 14 章 。 


本 书 的 排版 约定 
本 书 采用 的 体例 如 下 : 


" 等 宽 字 体 (constant width): 表示 程序 清单 ， 以 及 段落 中 引用 的 程序 元 素 ， 如 变量 或 
函数 名 、 数 据 库 、 数 据 类 型 、 环 境 变 量 、 语 句 和 关键 字 。 


* 加 粗 的 等 宽 字体 (Constant width bold): 表示 需要 用 户 手动 输入 的 命令 或 其 他 文本 。 


* 斜 的 等 宽 字 体 (Constant width italic): 表示 应 该 用 用 户 所 提供 的 值 或 根据 上 下 文 确 
定 的 值 来 替换 的 文本 。 


本 有 


这 个 图 标 表示 一 个 提示 、 建 议 或 者 一 般 的 注 记 。 
Eyl 
ph 


代码 示例 的 使 用 


本 书 的 目标 是 帮助 你 完成 工作 。 一 般 而 言 ， 你 可 以 在 自己 的 程序 和 文档 中 使 用 本 书 中 


Dd 
导 
到 


的 代码 ， 如 果 你 要 复制 的 不 是 很 大 一 部 分 代码 ， 则 无 须 取得 我 们 的 许可 。 例 如 ， 你 可 
以 在 程序 中 使 用 本 书 中 的 多 个 代码 块 ， 无 须 获取 我 们 许可 。 但 是 ， 要 销售 或 分 发 来 源 
于 OReilly 图 书 中 的 示例 的 光盘 则 必须 得 到 许可 。 通 过 引用 本 书 中 的 示例 代码 来 回答 
问题 时 ， 不 需要 事先 获得 我 们 的 许可 。 但 是 ， 如 果 你 的 产品 文档 中 融合 了 本 书 中 的 大 
量 示例 代码 ， 则 需要 取得 我 们 的 许可 。 


我 们 很 欢迎 引用 时 给 出 署名 ， 但 不 做 要 求 。 署 名 一 般 包 括 书 名 、 作 者 、 出 版 社 和 
ISBN。 例 如 “R Graphics Cookbook by Winston Chang (O'Reilly). Copyright 2013 Winston 
Chang, 978-1-449-31695-2”。 


如 果 你 觉得 你 对 例子 代码 的 使 用 已 经 超出 了 合理 程度 或 者 上 文 所 述 的 许可 范围 ， 请 通 
过 permissions@oreilly.com 联系 我 们 。 


我 们 的 联系 方式 
如 果 你 想 就 本 书 发 表 评论 或 有 任何 疑问 ， 敬 请 联系 出 版 社 。 
美国 


O’Reilly Media Inc. 
1005 Gravenstein Highway North 
Sebastopol, CA 95472 


中 国 : 


北京 市 西城 区 西直门 南大 街 2 号 成 饮 大 厦 C 座 807 室 (100035) 
奥 莱 利 技术 咨询 (北京 )》 有限 公 司 


我 们 还 为 本 书 建立 了 一 个 网 页 ， 其 中 包含 了 勘误 表 、 示 例 和 其 他 额外 的 信息 。 你 可 以 
通过 如 下 地 址 访问 该 网 页 : 


http://oreil.ly/R_Graphics_Cookbook 
关于 本 书 的 技术 性 问题 或 建议 ， 请 发 邮件 到 : 
bookquestions(@oreilly.com 


欢迎 登录 我 们 的 网 站 (http://www.oreilly.com)， 查 看 更 多 我 们 的 书籍 、 课 程 、 会 议和 
最 新 动态 等 信息 。 


我 们 的 其 他 联系 方式 如 下 : 


避 
] 咱 
Lu 


Facebook: http://facebook.com/oreilly 
Twitter: http://twitter.com/oreillymedia 
YouTube: http://www.youtube.com/oreillymedia 


没有 一 本 书 的 诞生 可 完全 归结 为 个 人 的 成 果 。 本 书 的 完成 得 到 了 很 多 人 直接 或 间接 
的 帮助 。 我 要 感谢 RR 社 区 创造 并 培育 了 一 个 积极 活跃 的 生态 系统 。 非 常 感谢 Hadley 


Wickham 的 诸多 帮助 : 他 编写 了 本 书 所 依赖 的 软件 包 ggplot2， 并 在 O'Reilly 出 版 社 考 
虑 出 版 R 图 形 书籍 的 时 候 推 荐 了 我 ， 他 还 为 我 打开 了 一 扇 深 入 了 解 R 的 窗户 。 


感谢 本 书 的 技术 审 稿 人 Paul Teetor、Hadley Wickham、Dennis Murphy 和 Erik Iverson。 
他 们 渊博 的 知识 和 对 细节 的 重视 极 大 地 提高 了 本 书 的 质量 。 我 还 要 感谢 O'Reilly 出 版 
社 积极 推进 此 书 的 编辑 们 : Mike Loukides 在 初始 阶段 给 了 我 很 多 指导 ，Courtney Nash 
伴 我 走 到 了 最 后 。 此 外 ， 我 还 要 郑重 感谢 O"Reilly 的 Holly Bauer 及 制作 团队 的 其 他 成 
员 ， 他 们 从 头 到 尾 耐心 地 做 了 很 多 细致 的 编辑 工作 ， 并 为 此 书 增添 了 不 少 特 色 。 


最 后 ， 我 还 要 感谢 我 的 妻子 Sylia， 感 谢 她 一 贯 的 支持 和 理解 一 一 当然 不 只 是 在 写本 书 
的 时 候 。 


> 
村 
了 





第 1 章 


1.1 
1.2 
1.3 
1.4 
1.5 
第 2 章 
2.1 
22 
23 
2.4 
和 和 
2.6 


第 3 章 


3.1 
3.2 
3.3 
3.4 
3.5 
3.6 
3.7 
3.8 
3.9 
3.10 


第 4 章 
4.1 


R 基础 Ts 1 
安装 包 ooneeooaeeseeatnoe su se se ee 1 
加 载 包 weseseoveosse ones rarnee rere redo pd 
加 载 分 隔 符 式 的 文本 文件 TU SR 区 
从 Excel 文件 中 加 载 数 据 ssaesatener ne ee ne i i 本 是 画 司 4 
从 SPSS 文件 中 加 载 数 据 esosseveen ee ee 要 得 二 训 前 下 厅 生 二 过 放生 机 和 | 要 遂 昨 证 在 夺 硬 村 6 本 下 机 可 和 间 本 区 硬 庆 让 5 
快速 探索 数据 和 6 
绘制 散 点 图 CT 订 遇 志 所 电站 计 二 遇 二 二 大 癌 重 总 大 二 辣 二 二 二 到 而 局 而 部 届 训 训 避 浊 王 斋 右 而 二 志 避 训 避 让 加 三 6 
绘制 折线 图 eobe 8 
绘制 条 形 图 Ce TT 而 9 
绘制 直方 图 oessseseoues so a de dom veeee 11 
绘制 箱 线 图 TT TT rr 13 
绘制 函数 图 像 sosusaasseeeo sr eos ss 0 eee 14 
条 形 图 sonsessosonaessosoooooooooaoooooooaosooonsossnloladas 16 
绘制 简单 条 形 图 TY TT OT RSTO ET ER 16 
绘制 簇 状 条 形 图 TT FS TR RN 19 
绘制 频数 条 形 图 TT TE TC A 9 
条 形 图 着 色 eas esse ee 本 他 下 针 所 生生 和 二 击 才 百 册 生硬 最后 量 硬 而 二 而 古 甩 汪 末 语 帮 局 忆 天 和 /和 总 前 帮 而 司 遇 十 本 3 
对 正 负 条 形 图 分 别 着 色 TT TT eR 24 
调整 条 形 宽度 和 条 形 间 距 pp 26 
绘制 堆积 条 形 图 MR 28 
绘制 百分比 堆积 条 形 图 TT OT OT 机 电 全 本 汪汪 贡 产量 圳 加 且 全 31 
添加 数据 标签 PT Ee 33 

绘制 Cleveland 点 图 ee $7 
折线 图 RT TET TI LT 42 
绘制 简单 折线 图 LRT Cr A 42 


4.2 
4.3 
4.4 
4.5 
4.6 
4.7 
4.8 
4.9 


第 5 章 


Sal 
5.2 
5:3 
5.4 
$53 
5.6 
$5.7 
5.8 
和 .9 
5.10 
5.11 
3.12 
2.13 


第 6 章 


6.1 
6.2 
6.3 
6.4 
6.5 
6.6 
6.7 
6.8 
6.9 
6.10 


向 折线 图 添加 数据 标记 44 
绘制 多 重 折线 图 45 
修改 线条 样式 ooooeaescsssseooseeseeeseoseoossoeeoeososoosooooeoooooeeoeooseseeeeeee 49 
修改 数据 标记 样式 oooosseeeessooeooseoeseseooooseosososeesoeeeooeeeooooeoooeooeoeooe 50 
绘制 面积 图 ooeeeeoeseeasseseeesaeeeseeeeeseoeeoooeeeeseeeeeeeeeeeeeeeessoooeseeeose 52 
绘制 堆积 面积 图 aaeoeesesssesesoseessoeoeoseeoooeeeeeseeeeeeeeeseeeseeesooeseeseeos 54 
绘制 百分比 堆积 面积 图 56 
添加 置信 域 eseossssssosssoessssososos eossse sr ossso sro teesooes oorr ossosos 58 
散 点 图 omnes 上 a 上 60 
绘制 基本 散 点 图 oooooooooooooooooooooooooooooooooooosooooosaosoosaosooseos5osses 60 
使 用 点 形 和 颜色 属性 ， 并 基于 某 变量 对 数据 进行 分 组 ……………… 62 
使 用 不 同 于 默认 设置 的 点 形 和 64 
将 连续 型 变量 映射 到 点 的 颜色 或 大 小 属性 上 pp 66 
处 理 图 形 重 吉 pp 69 
添加 回归 模型 拟 合 线 pe 3 
根据 已 有 模型 向 散 点 图 添加 拟 合 线 pp 78 
添加 来 自 多 个 模型 的 拟 合 线 ee 81 
向 散 点 图 添加 模型 系数 osss0sesses bss. M0 00es8e0 es 84 

向 散 点 图 添加 边际 地 牧 eaeeoeeeseeeseeeseoosssesesesosssosesesessseeseseoeesssssa 87 

向 散 点 图 添加 标签 ososoessseeoossesoosseseoooessosoessooosoosoosesoosseososseseees 88 

绘制 气泡 图 pp 92 

绘制 散 点 图 矩阵 ee 94 
描述 数据 分 布 PP 99 
绘制 简单 直方 图 ee 99 
基于 分 组 数据 绘制 分 组 直方 图 ee 101 
绘制 密度 曲线 oooooooeeoseooooosoooosoeosooooosoosoeeoeoooeoooeooeoooesoesooeooeeoeeoees 104 
基于 分 组 数据 绘制 分 组 密度 曲线 pp 107 
绘制 频数 多 边 形 pp 109 
绘制 基本 箱 线 图 eeeeoeeoeeeseooeeoeeoeseeeeseeoeeseeeeessesesesgeeseoseeoeegseee 110 
向 箱 线 图 添加 模 口 112 
向 箱 线 图 添加 均值 pp 113 
绘制 小 提琴 图 114 

绘制 Wilkinson 点 图 pp 117 


6.11 
6.12 


第 7 章 


Ea 
7 
7 
7.4 
15 
7.6 
7 
7.8 
第 8 章 
8.1 
8.2 
8.3 
8.4 
8.5 
8.6 
8.7 
8.8 
8.9 
8.10 
8.11 
8.12 
8.13 
8.14 
8.15 
8.16 
8.17 
8.18 


第 9 章 
9.1 
9.2 


基于 分 组 数据 绘制 分 组 点 图 站 119 
绘制 二 维 数据 的 密度 图 pe 120 
注解 wee ean 123 
添加 文本 注解 ooeeeoeseeeeooeesoeseesooooooooorooooovoooooooooooooooe ooooosooooooe。 123 
在 注解 中 使 用 数学 表达 式 oooooeooooooooooooooeooooooooooooooooooooooooooooooe 126 
添加 直线 ooeoooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo。 127 
添加 线段 和 箭头 ooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo oo。oo。 129 
添加 矩形 阴影 131 
高 亮 某 一 元 素 ooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo。 132 
添加 误差 线 eeooeoeoeoeeeeeeeeeeeeoeeoeeoeeoseseeeeeesoeseesaeeeoseeeleessieeeeeoaeses 133 
向 独立 分 面 添加 注解 pe 136 
坐标 轴 TT 139 
交换 x 轴 和 了 轴 oooooooooooooooooooooooooooooooosoooooeooooooeoooooeoooooeooooeooo 139 
设置 连续 型 坐标 轴 的 值 域 Soeoseoonsor earsos serosa oases oo so orssso sos 140 
反 转 一 条 连续 型 坐标 轴 pp 143 
修改 类 别 型 坐标 轴 上 项 目 的 顺序 eeeeeeeeeeeseeeeeeeee 144 
设置 x 轴 和 y 轴 的 缩放 比例 ooooosooeooooooooooooooeooooosoooosoooooeeooseseoos 145 
设置 刻度 线 的 位 置 Sessoooo0sonso ooo oor oso os aso or aso os oro rss esosososs 147 
移 除 刻度 线 和 标签 pe 148 
修改 刻度 标签 的 文本 pp 149 
修改 刻度 标签 的 外 观 eo. 151 
修改 坐标 轴 标 签 的 文本 aaeseessesesesesssssesoesesooooaesoeoessesessesoseoosaoososss 153 
移 除 坐标 轴 标 签 TT 154 
修改 坐标 轴 标 签 的 外 观 eooeseseesesssssessessessssrii te. 155 
沿 坐 标 轴 显 示 直 线 pp 157 
使 用 对 数 坐 标 轴 本 158 
为 对 数 坐 标 轴 添 加 刻度 weesuovesosese sesso bo soos ioe ines es 163 
绘制 环 状 图 形 ese 165 
在 坐标 轴 上 使 用 日 期 ooeeeeooeeesesseseseosaessooeeoeeseeoeaoasoessoesaaesoossessse 169 
在 坐标 轴 上 使 用 相对 时 间 esoeeoeeseoseesanoareoosneesssassaareesoesasasesaseas 172 
控制 图 形 的 整体 外 观 nnn 174 
设置 图 形 标题 nmee0ssesessss so .ass 0 0 0 00 a0 sa0000 580 000 174 
修改 文本 外 观 EET TET CTT 176 


9.3 
9.4 
9.5 
9.6 


第 10 章 


10.1 
10.2 
10.3 
10.4 
10.5 
10.6 
10.7 
10.8 
10.9 
10.10 


第 11 章 


ll 
11.2 
11:3 
11.4 


第 12 章 


2 
12.2 
12.3 
12.4 
12,3 
12.6 
12.7 


第 13 章 


13.1 
13.2 
13.3 


使 用 主题 TT 178 
修改 主题 元 素 的 外 观 ee 180 
创建 自 定义 主题 rT 183 
隐藏 网 格 线 osseous 184 
图 例 | 185 
移 除 图 例 和 pe 185 
修改 图 例 的 位 置 Sess nn nn ne spe 187 
修改 图 例 项 目 的 顺序 ooeosoeeooseooooseooooooooooeosooooeeeoooeeeeoooooooooeooseos 188 
反 转 图 例 项 目的 顺序 pp 190 
修改 图 例 标题 ee 191 
修改 图 例 标 题 的 外 观 OO ES RT RE 193 
移 除 图 例 标题 snaavoevneonene ne 194 
修改 图 例 标 签 人 195 
修改 图 例 标 签 的 外 观 ROSE CTP RT PE 198 
使 用 含 多 行文 本 的 标签 Te SOP ep OR ET A 199 
分 面 pe 200 
使 用 分 面 将 数据 分 割 绘制 到 子 图 中 Ey CN Oe Pe Sp 200 
在 不 同 坐 标 轴 下 使 用 分 面 pp 202 
修改 分 面 的 文本 标签 Dp CS TE te Et 204 
修改 分 面 标签 和 标题 的 外 观 ppp 206 
配色 二 207 
设置 对 象 的 颜色 rT 可知 备 大 站 证 曙 二 而 四 关机 覃 十 计 奋 汉 血 大 而 再 机 而 过 本 面 百 兽 各 测 届 因而 本 南面 曾 盏 盏 而 本 于 襄 析 而 而 证 侧面 而 207 
将 变量 映射 到 颜色 上 deoanaddeld 208 
对 离散 型 变量 使 用 不 同 的 调 色 板 pp 210 
对 离散 型 变量 使 用 自 定 义 调 色 板 ES 214 
使 用 色盲 友好 式 的 调 色 板 CT 215 
对 连续 型 变量 使 用 自 定义 调 色 板 和 S17 
入 据 数值 设 定 阴 影 颜色 secession dn 218 
其 他 图 形 asssessesssesssssssssssseesssesssssssssssssssssssssesoesssasasassesaseese 221 
绘制 相关 和 矩阵 图 RS RR 991 
绘制 函数 曲线 TR TR RR 224 
在 函数 曲线 下 添加 阴影 225 


目录 


13.4 
13.5 
13.6 
L137 
13.8 
13.9 
13.10 
13.1] 
13.12 
13.13 
13.14 
13.13 
13.16 
13.17 
13.18 
13.49 
13.20 


第 14 章 


14.1 
14.2 
14.3 
14.4 
14.5 
14.6 
14.7 


第 15 章 


15.1 
15.2 
15.3 
15.4 
15:3 
15.6 
15,.7 


绘制 网 络 图 227 


在 网 络 图 中 使 用 文本 标签 230 
如 何 绘制 热 图 937 
绘制 三 维 散 点 图 234 
在 三 维 图 上 添加 预测 曲面 wosesssoeeeseoeoeseeeosseeoeeooeseoeeoseosesoseseseees 237 
保存 三 维 图 ooooooosoooooooooooooooooeooooeeooooooooooooooooooeoo oooooooeoooso 240 
三 维 图 动画 oooossseooseoooooooooooooecoeooeoeooeoooosoooseoooosseoosesooooeeeoeeoes 241 
绘制 谱系 图 oseooosoeessseseosoeoseeesoseeeoooesesooeoooaoseseooeoesasooeoeseoeeassoeee 241 
绘制 向 量 场 244 
绘制 QQ 图 248 
绘制 经 验 累积 分 布 函 数 图 ee 249 
创建 马赛 克 图 250 
绘制 饼 图 aose0noorooossosoosorsostsosrsossosssosasosososaostssossoss sosoooosossososss 254 
创建 地 图 ee 255 
绘制 等 值 区 域 图 aseseeeessseeseoesessesoseeosesaesessaoesoesoeseseosesesseseseaea 258 
创建 空白 背景 的 地 图 ooeeseeseoeseseessseeseosssesosseosoassosoeoseoosoesesessoo 262 
基于 空间 数据 格式 (shapefile) 创建 地 图 263 
输出 图 形 用 以 展示 266 
输出 为 PDF 夭 量 文件 soseeeoscoosooesoooooooooooeoooooooooooooooooeoooosooooo 266 
输出 为 SVG 矢量 文件 eesss0s0ss80es e000 000 0.0800 0 000 500 267 
输出 为 WMF 矢量 文件 pp 268 
编辑 矢量 格式 的 输出 文件 pp 268 
机 Th 1 为 点 阵 (PNG/TIFF) 文件 oossvovoosooososososooooooooooooooooooooooos 270 
在 PDF 文件 中 使 用 字体 eseaessseseeesp6esossossasssssssaassssaaoesasaaseses 272 
在 Windows 的 点 阵 或 屏幕 输出 中 使 用 字体 pp 274 
数据 塑 形 pp 276 
创建 数据 框 oooooeoooeooeooooesoooeoosooooooeoooooooooooeoovoooooeoooeosooeooooooooooou 277 
从 数据 框 中 提取 信息 esossenevepoased a rn oases 277 
问 数 据 框 添加 列 Senonoeovssesessooossooaasaaeesssotesosoodssoasssooesossaesseet 278 
从 数据 框 中 删除 一 列 pp 279 
重 命 名 数据 框 的 列 名 aeoeooooooooooooooooosooooosooooooosoooooooooosooooooeooooeoo。 279 
重 排序 数据 框 的 列 :pp 280 
从 数据 框 提取 子 集 ooeooeeooooooooooooeoeoooeseoooeesoseoeeeoeooeesoesoeesoooeoessossesoes 281 


目录 5 


15.8 ”改变 因子 水 平 的 顺序 283 
15.9 根据 数据 的 值 改 变 因子 水 平 的 顺序 pp 284 
15.10 ”改变 因子 水 平 的 名 称 eeee 285 
15.11 去掉 因子 中 不 再 使 用 的 水 平 pe 287 
15.12 在 字符 向 量 中 改变 元 素 的 名 称 aeeesoseeecesesseeeeeseseeaesssa5aeaaeaeaaoaase 287 
15.13 ”把 一 个 分 类 变量 转化 成 另 一 个 分 类 变量 pp 288 
15.14 ”连续 变量 转变 为 分 类 变量 pp 290 
15.15 变量 转换 vossooesossoosoososso seoo sososossssosssaasdoas assosaosssssssosossooaos 291 
15.16 按 组 转换 数据 oooooooooooooooeooooooosooooooooooeoosooooooooooosoo oo oo 293 
15.17 分 组 汇总 数据 ooooooooosooooooosoooooosoooooocooooooooooooooooooooooooooooooooo 295 
15.18 使 用 标准 误差 和 置信 区 间 来 汇总 数据 eosoooooosoossossosssoos eososeooraose 300 
15.19 把 数据 框 从 “ 帘 ?” 变 名 全 aooosooeseooosoooosooooooooseoseoooeoososoooooooseosooeooo 303 
15.20 把 数据 框 从 “长 ” 变 “ 帘 ” aeoeoeoeeeeeeeeeoeeeeeessessseoooessesosseosasseseee 305 
15.21 把 时 间 序 列 数 据 对 象 拆 分 成 时 间 和 数据 oooooooooooooooooooooooooooooo。 306 
附录 A ggplot2 介绍 ee 309 
A.l 背景 知识 ooeoeooooeoooooooooeooooooooooooooooooooooooooooooooooooooooooooooooooooooooo 309 
A2 若干 术语 和 理论 sooesoooosssosssnsossos srsoo sso ressoeo esseooosooososoosee 313 
A.3 构建 一 幅 简 单 图 形 oessooonssosssooooss ooosss eeoooooooeoooooooooooooooosoeoooeo。e 314 
A.4 打印 输出 PP 317 
A.5 统计 变换 ooooeooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooosoooo。 % dl 
A.6 主题 oooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooooo。 317 
太 .7 了 结语 eneeeddosh 人 eG 2 和 


目录 


第 章 


R 基 础 





本 章 包 括 以 下 基础 知识 : 安装 包 、 使 用 包 和 加 载 数据 。 
如 果 你 想 快速 上 手 ， 本 书 大 多 数 技巧 都 需要 安装 ggplot2 和 gcookbook 包 。 运 行 下 面 
命令 来 安装 : 
install.packages (c( )) 
然后 ， 在 每 个 R 会话 中 ， 你 需要 在 运行 本 书 的 例子 之 前 先 加 载 它们 : 


library (ggplot2) 
library (gcookbook) 


eee 附录 A 提供 了 一 个 关于 ggplot2 绘图 包 的 简介 ， 主 要 是 面向 不 熟悉 ggplot2 的 
4 读者 。 


R 中 的 包 是 一 些 为 了 便于 分 发 和 传播 而 封装 在 一 起 的 函数 和 (或 ) 数据 集 〈 可 以 没有 
数据 集 ) 的 集合 。 在 你 的 电脑 中 安装 软件 包 ， 便 可 以 扩展 R 的 功能 。 如 果 一 个 R 用户 
编写 了 一 个 包 并 觉得 这 个 包 对 其 他 R 用 户 可 能 有 用 ， 那 么 ， 这 位 R 用 户 就 可 以 通过 软 
件 包 仓库 将 该 包 发布 。 发 布 R 软件 包 的 最 主要 的 软件 包 仓库 是 CRAN (Comprehensive 
R Archive Network)， 不 过 也 有 其 他 的 仓库 ， 如 Bioconductor 和 Omegahat。 


1.1 安装 包 
问题 


如 何 从 CRAN 安装 R 包 ? 
方法 
使 用 install.packages() 函数 来 安装 包 ， 括 号 中 写 上 要 安装 的 包 名 。 以 安装 ggplot2 


1 


包 为 例 ， 运 行 : 

install .packages ("ggplot2") 
此 时 系统 可 能 提示 你 选择 一 个 下 载 镜像 ， 可 以 选择 离 你 最 近 的 一 个 ; 如 果 想 要 确保 包 
的 版 本 是 最 新 的 ， 那 就 选择 Austria 站 点 ， 因 为 这 是 CRAN 的 主 服 务 器 。 


讨论 
当 R 安装 一 个 包 的 时 候 ， 该 包 依赖 的 所 有 包 也 都 会 被 自动 安装 。 


CRAN 是 及 包 的 仓库 ， 在 全 球 范围 内 有 很 多 镜像 ， 它 是 R 默认 使 用 的 库 。 此 外 ， 
还 有 几 个 软件 包 仓库 ， 如 Bioconductor， 它 是 与 基因 组 数据 分 析 相 关 的 包 的 软件 包 
仓库 。 


1.2 ”加 载 包 

问题 

如 何 加 载 一 个 已 经 安装 了 的 包 ? 
方法 


使 用 library() 函数 ， 插 号 中 写 上 要 加 载 的 包 名 。 以 加 载 ggplot2 包 为 例 ， 运 行 : 
library (ggplot2) 

当然 ， 必 须 确保 要 加 载 的 包 已 经 被 安装 了 。 

讨论 

本 书 的 大 多 数 技巧 都 需要 在 运行 代码 前 加 载 包 ， 无 论 是 为 了 绘图 (ggplot2 包 ) 还 是 为 

了 加 载 例子 中 的 数据 集 (MASS 和 gcookbook 包 )。 


R 的 一 个 不 寻常 之 处 是 软件 包 (package) 和 软件 库 (library) 的 术语 区 别 。 尽管 我 们 
使 用 1ibrary () 函数 来 加 载 包 (package)， 但 一 个 包 并 不 是 一 个 软件 库 ; 如 果 你 不 幸 
犯 此 错误 ， 可 能 会 激怒 一 些 资深 的 RR 用户。 


软件 库 指 的 是 一 个 包含 了 若干 软件 包 的 目录 。 你 既 可 以 拥有 一 个 系统 级 别 的 软件 库 ， 
也 可 以 针对 每 个 用 户 单独 设立 一 个 软件 库 。 


1.3 ”加 载 分 隔 符 式 的 文本 文件 


问题 
如 何 加 载 一 个 分 隔 符 式 的 文本 文件 中 的 数据 ? 
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方法 
加 载 逗 号 分 隔 组 (CSV) 数据 的 最 常用 方法 是 : 
data <-read.csv ("datafile.csv") 
讨论 
由 于 数据 文件 有 许多 不 同 的 格式 ， 为 了 加 载 它 们 ， 提 供 了 很 多 对 应 的 选项 。 如 果 一 个 
数据 集 首 行 没有 列 名 : 
data <-read.csv ("datafile.csv", header=FALSE) 
得 到 的 数据 框 的 列 名 将 是 V1、vV2 等 ， 你 可 能 想 要 重 命名 列 : 
# 手动 为 列 名 荆 值 
names (data) <-c("Columnl","Column2", "Column3") 
还 可 以 用 sep 参数 来 设置 分 隔 符号 。 如 果 是 空格 分 隔 ， 使 用 sep=-" " ; 如果 是 制 表 符 
分 隔 ， 使 用 \t。 
data <-read.csv("datafile,.csv", sep="\t") 
默认 情况 下 ， 数 据 集中 的 字符 串 (string) 会 被 视 为 因子 (factor〉 处理。 假设 下 面 是 
你 的 数据 文件 ， 然 后 ， 你 用 read.csv() 来 读 取 : 


"First", "Last", "Sex", "NUmbern 
"Currer" LDL WE 学 

ed ey "Seuss", i 49 

"", "Student",NA,21 


得 到 的 数据 框 将 会 把 First、Last 等 存储 为 因子 ， 尽 管 此 时 将 它们 视 为 字符 串 

(或 使 用 R 中 的 术语 ， 字 符 : character) 更 为 合理 。 为 了 区 别 这 一 点 ， 可 以 设置 

stringsAsFactors=FALSE。 如 果 有 些 列 应 该 被 处 理 为 因子 格式 ， 你 可 以 再 逐个 转换 : 
data <-read.csv("datafile.csv", stringsAsFactors=FALSE) 


# 转换 为 因子 


data$Sex <-factor (data$Sex) 

str (data) 

'data.frame': 3 obs. of 4 variables: 

$ First : chr "Currer" "Dr.™ mn 

$ Last : chr "Bell" "Seuss" "student" 

$ Sex : Factor w/ 2 levels "F","M": 1 2 NA 

$ Number: int 2 49 21 
或 者 ， 你 可 以 在 加 载 的 时 候 不 做 设置 (字符 串 自动 转换 为 因子 )， 加 载 之 后 再 对 需要 
的 列 进行 因子 到 字符 的 转换 。 
另 见 


read.csv() 是 对 read.table() 一 个 便捷 的 封装 函数 。 如 果 需 要 更 多 的 输入 控制 ， 参 
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见 ?read.table。 


1.4 从 Excel 文件 中 加 载 数据 


问题 
如 何 从 Excel 文件 中 加 载 数据 ? 


方法 
xlsx 包 中 的 函数 read .xlsx() 可 以 读 取 Excel 文件 ， 下 面 的 代码 将 会 读 取 Excel 中 的 
第 一 个 工作 表 : 

# 只 需要 安装 一 次 


install .packages (" ) 


library (xslx) 
data <-read.xlsx(" pa | 


如 果 需 要 阅读 老 版 本 的 Excel 文件 〈.xls 格式 )，gdata 包 提 供 了 函数 read.xls(): 
# 只 需要 安装 一 次 
instal1.packages (' ") 
library (gdata) 
# 读 取 第 一 张 工作 表 
data <-read.xls!( ) 
讨论 
使 用 read.xlsx() 加 载 工作 表 时 ， 既 可 以 用 序数 参数 sheetIndex 来 指定 ， 也 可 以 用 
工作 表 名 参数 sheetName 来 指定 : 


data <-read.xlsx(' 5 "，SheetIndex=- ) 
data <-read.xlsx( ', SheetName=' ") 

使 用 read.xls() 加 载 工 作 表 时 ， 可 以 用 序数 参数 sheet 来 指定 : 
data <-read.xls(" ", sheet=-) 


安装 xlsx 和 gdata 包 时 需要 在 电脑 上 安装 其 他 软件 。 对 于 xlsx 包 ， 需 要 安装 Java ; 对 
于 gdata 包 ， 需 要 安装 Perl。Perl 在 Linux 和 Mac OS X 上 是 系统 自 带 的 ， 但 在 Win- 
dows 上 没有 。 如 果 是 在 Windows 上 ， 你 需要 安装 ActiveState Perl， 其 社区 版 本 可 以 免 
费 获得 (http: /www. active state.com/active perl ) 。 

如 果 你 不 想 这 样 折腾 ， 更 简单 的 替代 方案 是 打开 Excel 文件 后 另存 为 标准 的 文本 格式 ， 
比如 CSV。 
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另 见 
输入 ?read.xls 和 ?read.xlsx 来 查看 更 多 关于 读 取 文件 的 选项 。 


1.5 从 SPSS 文件 中 加 载 数 据 


问题 

如 何 从 SPSS 文件 加 载 数据 ? 

方法 

foreign 包 中 的 函数 read.spss() 可 以 读 取 SPSS 文件 。 若 要 读 取 SPSS 文件 中 的 第 一 
张 表 : 


人 
关 只 需 首 次 使 用 时 安装 


instal1.packages ( ) 


library (foreign) 
data <-read.spss ( ) 


讨论 
foreign 包 中 还 有 很 多 读 取 其 他 格式 文件 的 函数 ， 包 括 以 下 几 种 。 


。 read.octave () : Octave 和 MATLAB。 
e。 read.systat() : SYSTAT。 

e。 read.xport() : SAS XPORT。 

。 read.dta() : Stata。 


另 见 
输入 1s("package:foreign") 可 以 查看 该 包 中 的 所 有 函数 的 列表 。 
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虽然 本 书 中 大 部 分 图 形 都 是 通过 ggplot2 包 绘 制 的 ， 但 这 并 不 是 R 绘制 图 形 的 唯一 方法 。 要 
快速 探索 数据 ， 有 时 使 用 RR 基础 包 中 的 绘图 函数 会 很 有 用 。 这 些 函 数 随 R 软件 默认 安装 ， 
无 需 另行 安装 附加 包 。 它 们 简短 易 输 入 ， 处 理 简单 问题 时 使 用 方便 ， 且 运行 速度 极 快 。 

如 果 你 想 绘制 较为 复杂 的 图 形 ， 那 么 ， 转 用 ggplot2 包 通 常 是 更 好 的 选择 。 部 分 原因 
在 于 ggplot2 提供 了 一 个 统一 的 接口 和 若干 选项 来 替代 基础 绘图 系统 中 对 图 形 的 修 修 
补 补 和 各 种 特例 。 一 旦 掌握 了 ggplot2 的 工作 机 制 ， 你 就 可 以 应 用 这 些 知 识 来 绘制 从 
散 点 图 、 直 方 图 到 小 提琴 图 和 地 图 等 各 种 统计 图 形 了 。 

本 章 介 绍 的 技巧 演示 了 用 基础 绘图 系统 绘制 统计 图 形 的 方法 ， 也 对 如 何 用 ggplot2 中 
的 qplot() 函数 绘制 同样 的 图 形 做 出 了 说 明 。aqplot () 函数 的 语法 与 基础 绘图 系统 类 
似 ， 对 于 每 一 个 由 qplot () 函数 绘制 的 图 形 ， 技 巧 中 也 提供 了 用 更 强大 的 ggplot () 
函数 来 绘图 的 等 价 解决 方案 。 

如 果 你 已 经 知道 如 何 使 用 基础 图 形 系统 ， 那 么 当 你 想 绘 制 更 复杂 的 图 形 时 ， 可 以 将 这 
些 例 子 放 在 一 起 进行 对 比 以 帮助 你 过 渡 到 ggplot2 系统 。 


2.1 绘制 散 点 图 


问题 

如 何 绘制 散 点 图 ? 

方法 

使 用 plot () 函数 可 绘制 散 点 图 〈 见 图 2-1) ， 运 行 命令 时 依次 传递 给 plot () 函数 一 个 


向 量 x 和 一 个 向 量 y。 


plot (mtcars$wt,mtcars$mpg) 





图 2-1 基础 绘图 系统 绘制 的 散 点 图 
对 于 ggplot2 系统 ， 可 用 qplot () 函数 得 到 相同 的 绘图 结果 ( 见 图 2-2): 


library (ggplot2) 
qplot (mtcars$wt, mtcars$mpg) 








2-2 使 用 ggplot2 包 中 qplot () 函数 绘制 的 散 点 图 
如 果 绘 图 所 用 的 两 个 参数 向 量 包含 在 同一 个 数据 框 内 ， 则 可 以 运行 下 面 的 命令 : 
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qplot (wt,mpg, data=mtcars) 
# 这 与 下 面 等 价 
ggplot (mtcars, aes (x=wt, y=mpg)) + geom point() 


为 见 
更 多 关于 绘制 散 点 图 的 详细 内 容 可 参见 本 书 第 5 章 。 


2.2 ”绘制 折线 图 


问题 

如 何 绘制 折线 图 ? 

方法 

使 用 plot () 函数 绘制 折线 图 ( 见 图 2-3 左 图 ) 时 需 向 其 传递 一 个 包含 x 值 的 向 量 和 一 
个 包含 y 值 的 向 量 ， 并 使 用 参数 type="1" : 


plot (pressure$temperature, pressure$pressure, type="1") 








pressure$pressure 
400 


200 








0 50 100 150 200 250 300 350 0 50 100 150 200 250 300 350 





pressureStemperature pressureS$temperature 














图 2-3 左 图 : 基础 绘图 系统 绘制 的 折线 图 “ 右 图 : 向 图 形 中 添加 数据 点 和 另 一 条 折线 
如 果 要 向 图 形 中 添加 数据 点 或 者 多 条 折线 〈 见 图 2-3 右 图 )， 则 需 先 用 plot () 函数 绘 
制 第 一 条 折线 ， 再 通过 points () 函数 和 lines () 函数 分 别 添加 数据 点 和 更 多 折线 ; 


plot (pressure$temperature, pressure$pressure, type="]") 
points (pressure$temperature,pressure$pressure) 


lines (pressure$temperature, pressure$pressure/’, col="red") 
points (pressurestemperature, pressureS$Spressure/’, col=" 


在 ggplot2 中 ， 可 以 使 用 qplot () 函数 并 将 参数 设 定 为 geom="line" 得 到 类 似 的 给 
结果 ( 见 图 2-4): 


library (ggplot2) 
qplot (pressure$temperature, pressure$pressure, geom="]ine") 
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图 2-4 左 图 : ggplot2 中 的 qplot () 函数 绘制 的 折线 图 。 右 图 : 添加 数据 点 的 折线 图 
如 果 函 数 的 两 个 参数 向 量 已 包含 在 同一 个 数据 框 中 ， 则 可 以 运行 下 面 的 语句 : 


qplot (temperature, pressure, data=pressure, geom="! | 
# 这 等 价 于 下 面 的 命令 


ggplot (pressure, aes(x=temperature, y=pressure)) + geom Jine() 


# 添加 数据 点 
qplot (temperature, pressure, data=pressure, geom=c ("line", "point")) 
# 这 等 价 于 下 面 的 命令 


ggplot (pressure, aes(x=temperature, y=pressure)) + geom line() + geom point () 


另 见 
更 多 关于 绘制 折线 图 的 详细 内 容 可 参见 本 书 第 4 章 。 


2.3 绘制 条 形 图 


问题 

如 何 绘制 条 形 图 ? 

方法 

对 变量 的 值 绘制 条 形 图 〈 见 图 2-5 左 图 )， 可 以 使 用 barplot () 函数 ， 并 向 其 传递 两 


个 向 量 作为 参数 ， 第 一 个 向 量 用 来 设 定 条 形 的 高 度 ， 第 二 个 向 量 用 来 设 定 每 个 条 形 对 
应 的 标签 〈 可 选 )。 


如 果 向 量 中 的 元 素 已 被 命名 ， 则 系统 会 自动 使 用 元 素 的 名 字 作 为 条 形 标 签 : 

barplot (BOD$demand, names.arg=BOD$Time) 
有 时 候 ,“ 条 形 图 ”表示 的 是 分 组 数据 中 各 个 元 素 的 频数 〈 见 图 2-5 右 图 )。 这 种 条 形 
图 跟 直方 图 有 些 类 似 ， 不 过 ， 其 用 离散 取 值 的 x 轴 替代 了 直方 图 中 连续 取 值 的 x 轴 。 
要 计算 向 量 中 各 个 类 别 的 频数 ， 可 以 使 用 table () 函数 。 
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table (mtcars$cyl1) 
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图 2-5 左 图 : 基础 绘图 系统 绘制 的 条 形 图 右 图 : 向 量 元 素 的 频数 条 形 图 
只 需 将 上 面 的 表格 结果 传递 给 barplot () 函数 即 可 绘制 频数 条 形 图 : 
# 生成 频数 表 
barplot (table (mtcars$cy1)) 
对 于 ggplot2 系统 ， 可 以 使 用 qplot () 函数 得 到 类 似 的 绘图 结果 ( 见 图 2-6)。 绘 制 变 
量 值 的 条 形 图 时 需 将 参数 设 定 为 geom="bar" 和 stat="identity"。 注 意 变量 x 分别 为 
连续 取 值 和 离散 取 值 时 输出 结果 的 差异 。 


library (ggplot2) 
qplot (BOD$Time, BOD$demand, geom="bar", stat="identity") 
# 将 x 转化 为 因子 型 变量 ， 令 系统 将 其 视 作 离 散 值 





gqplot (factor (BOD$Time), BOD$demand, geom="bar", stat="identity") 
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图 2-6 左 图 : qplot () 函数 绘制 的 连续 变量 x 的 变量 值 条 形 图 右 图 : 将 变量 x 转化 为 因子 型 
变量 ( 注意 ， 横 坐标 上 没有 6 这 个 类 别 ) 

qplot () 函数 也 可 以 用 来 绘制 分 组 变量 的 频数 条 形 图 〈 见 图 2-7)， 事 实 上 ， 这 是 
ggplot2 绘制 条 形 图 的 默认 方式 ， 它 比 绘制 变量 值 条 形 图 的 命令 更 简短 。 再 提醒 一 次 ， 
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注意 连续 x 轴 和 离散 x 轴 的 差异 。 


qplot (mtcars$cyl) 
# 将 cvl 转化 为 因子 开 


qplot (factor (mtcars$cy1)) 





count 
count 


0- 





mtcarsS$cyl 





6 
factor(mtcars$cyl) 





2-7 ， 左 图 : qplot () 函数 绘制 的 连续 变量 x 的 频数 条 形 图 右 图 : 将 cyl 转化 为 因子 型 变量 
如 果 参 数 向 量 包含 在 同一 个 数据 框 内 ， 则 可 以 运行 下 面 的 语句 : 








ggplot (mtcars, aes (x=factor (cyl))) + geom bar() 


男 见 


更 多 关于 绘制 条 形 图 的 详细 内 容 可 参见 本 书 第 3 症 
2.4 绘制 直方 图 


问题 
如 何 绘制 直方 图 来 查看 一 维 数据 的 分 布 特征 ' 


方法 


可 以 使 用 hist () 函数 绘制 直方 图 ( 见 图 2-8)， 使 用 时 需 向 其 传递 一 


hist (mtcars$mpg) 


上 委 诵 计 hrsak 关 故 拓 定 寺 动 组 而 
# 电工 DOr KS 了 日 还 大 Nz $ 


个 向 量 : 
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hist (mtcars$mpg,breaks=,") 
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图 2-8 左 图 : 基础 绘图 系统 绘制 的 直方 图 右 图 : 使 用 更 多 分 组 。 注 意 : 由 于 组 距 变 小 ， 每 
组 对 应 的 样本 数 有 所 减少 
对 于 ggplot2 包 ， 可 以 使 用 qplot () 函数 得 到 同样 的 绘图 结果 ( 见 图 2-9): 
qplot (mtcars$mpg) 
如 果 参 数 向 量 在 同一 个 数据 框 内 ， 则 可 以 使 用 下 面 的 语句 : 
library (ggplot2) 


qplot (mpg, data=mtcars, binwidth=4) 


# 











ggplot (mtcars, aes (x=mpg)) + geom histogram(binwidth=4) 
| 
4- 8- 
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2-9 左 图 : ggplot2 中 qplot () 函数 绘制 的 直方 图 ， 组 距 为 默认 值 ” 右 图 : 组 距 更 大 的 直方 图 


男 见 
更 多 关于 绘制 直方 图 的 内 容 参 见 6.1 节 和 6.2 节 。 


2.5 ”绘制 箱 线 图 


问题 
如 何 绘制 箱 线 图 以 对 不 同 分 布 进 行 比较 ? 


方法 
使 用 plot () 函数 绘制 箱 线 图 ( 见 图 2-10) 时 向 其 传递 两 个 向 量 : x 和 y。 当 x 为 因子 
型 变量 〈 与 数值 型 变量 对 应 ) 时 ， 它 会 默认 绘制 箱 线 图 : 

plot (ToothGrowth$supp, ToothGrowth$len) 
当 两 个 参数 向 量 包含 在 同一 个 数据 框 中 时 ， 也 可 以 使 用 公式 语法 。 公 式 语 法 允许 我 们 
在 x 轴 上 使 用 变量 组 合 ， 如 图 2-10 所 示 。 


ly A 八 此: 瑟 慎 
# 公式 倍 法 


boxplot (len ~ supo, data = ToothGrowth) 
# 在 x 轴 上 引入 两 变量 的 交互 
boxplot (len ~ supp + dose, data = ToothGrowth) 

















图 2-10 左 图 : 基础 绘图 系统 绘制 的 箱 线 图 “ 右 图 : 基于 多 分 组 变量 的 箱 线 图 
对 于 ggplot2 包 ， 你 可 以 使 用 gplot () 函数 绘制 同样 的 图 形 〈 见 图 2-11 ) ， 使 用 时 将 参 
数 设 定 为 geom="boxplot" : 


library (ggplot2) 
qplot (ToothGrowth$supp, ToothGrowth$len, geom="Doxr 过 


当 两 个 参数 向 量 在 同一 个 数据 框 内 时 ， 则 可 以 使 用 下 面 的 语句 : 

gplot (supp, len，data=ToothGrowth，9geom="bcox | 

# 这 等 价 于 

ggplot (ToothGrowth, aes (x=supp,y=len)) + geom boxplot () 
使 用 interaction() 函数 将 分 组 变量 组 合 在 一 起 也 可 以 绘制 基于 多 分 组 变量 的 箱 线 图 ， 
如 图 2-11 右 图 所 示 。 本 例 中 ，dose 变量 是 数值 型 ， 因 此 ， 我 们 必须 先 将 其 转化 为 因 
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子 型 变量 ， 再 将 其 作为 分 组 变量 : 
# 使 用 三 个 独立 的 向 量 参 数 
qplot (interaction (ToothGrowth$supp, ToothGrowth$dose), ToothGrowth$len,geom="boxplot") 
# 也 可 以 以 数据 框 中 的 列 作 为 参数 
gqplot (interaction (supp, dose), len, data=ToothGrowth, geom="boxplot") 
# 这 等 价 于 
ggplot (ToothGrowth, aes (x=interaction(supp, dose), y=len)) + geom boxplot () 
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图 2-11 左 图 : qplot () 函数 绘制 的 箱 线 图 “ 右 图 : 基于 多 分 组 变量 的 箱 线 图 











PAN 你 可 能 会 注意 到 基础 绘图 系统 绘制 的 箱 线 图 与 ggplot2 略 有 不 同 。 这 是 因为 两 


六 者 在 绘图 过 程 中 调用 的 计算 分 位 数 的 方法 略 有 差异 . 运行 ?geom boxplot 
“外 %、 和 ?boxplot .base 命令 可 以 得 到 更 多 关于 两 者 差异 的 细节 信息 . 

为 见 

更 多 关于 绘制 箱 线 图 的 内 容 参 见 6.6 节 。 


2.6 绘制 函数 图 像 


问题 
如 何 绘制 函数 图 像 ? 
方法 
可 以 使 用 curve () 函数 绘制 函数 图 像 ， 如 图 2-12 左 图 所 示 。 使 用 时 需 向 其 传递 一 个 关 
于 变量 x 的 表达 式 : 
Curve (X^3 - 5*x, from=-4, to=4) 
你 可 以 绘制 任何 一 个 以 数值 型 向 量 作为 输入 且 以 数值 型 向 量 作为 输出 的 函数 图 像 ， 包 
括 你 自己 定义 的 函数 ， 如 图 2-12 右 图 所 示 。 
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2-12 ， 左 图 : 基础 绘图 系统 绘制 的 函数 图 像 ” 右 图 : 绘制 用 户 自 定义 的 函数 
将 参数 设置 为 add=TRUE 可 以 向 已 有 图 形 添 加 函数 图 像 : 


# 绘制 用 户 自 定 义 的 函数 图 像 
myfun <- function (xvar) { 
1/(1 + exp(-xvar + 10)) 
} 
curve (myfun (x), from=), to=20) 
# 添加 直线 
curve (1-myfun(x)，add = TRUE, col ="red") 


对 于 ggplot2， 可 以 使 用 qplot () 函数 绘制 得 到 同样 的 结果 ( 见 图 2-13)。 使 用 时 需 设 定 
stat="function" 和 geom="line"， 并 向 其 传递 一 个 输入 和 输出 皆 为 数值 型 向 量 的 函数 : 
library (ggplot2) 
# 将 x 轴 的 取 值 范围 设 定 为 0 到 20 
gqplot (c(0, 20), fun=myfun, stat="function", geom="line") 


# 这 等 价 于 


ggplot (data.frame (x=c (0, 20)), aes(x=x)) + stat_function(fun=myfun，geocom="line") 





2-13”qplot () 函数 绘制 的 函数 图 像 
另 见 
更 多 关于 绘制 函数 图 像 的 内 容 参见 13.2 节 。 
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2 [ 友 
条 形 图 





条 形 图 也 许 是 最 常用 的 数据 可 视 化 方法 ， 通 常用 来 展示 不 同 的 分 类 下 (在 x 轴 上 ) 某 
个 数值 型 变量 的 取 值 (在 y 轴 上 )。 例 如 ， 条 形 图 可 以 用 来 形象 地 展示 四 种 不 同 商品 的 
价格 情况 ， 但 不 适宜 用 来 展示 商品 价格 随时 间 的 变动 趋势 ， 因 为 这 里 时 间 是 一 个 连续 
变量 一 一 尽管 我 们 也 可 以 这 么 做 ， 后 面 会 看 到 这 种 情形 。 

绘制 条 形 图 时 需 特别 注意 一 个 重要 的 细节 : 有 时 条 形 图 的 条 形 高 度 表 示 的 是 数据 集中 
变量 的 频数 ， 有 时 则 表示 变量 取 值 本 身 。 牢 记 这 个 区 别 一 一 这 里 极 易 混淆 ， 因 为 两 者 
与 数据 集 的 对 应 关系 不 同 ， 但 又 对 应 同样 的 术语 。 本 章 将 对 此 进行 深入 讨论 ， 并 分 别 
介绍 这 两 类 条 形 图 的 绘图 技巧 。 


3.1 绘制 简单 条 形 图 


问题 
你 有 一 个 包含 了 两 列 数据 的 数据 框 ， 其 中 一 列 数据 表示 条 形 在 x 轴 上 的 位 置 ， 另 一 列 
表示 每 个 条 形 在 y 轴 上 对 应 的 高 度 ， 基 于 此 ， 如 何 绘制 条 形 图 ? 


方法 
使 用 ggplot () 函数 和 geom bar (stat="identity") 绘制 上 述 条 形 图 ， 并 分 别 指定 与 
x 轴 和 yy 轴 对 应 的 变量 ( 见 图 3-1)。 


library (gcookbook) # 为 了 使 用 数据 








ggplot (pg mean, aes (x=group, y=weight)) + geom bar (Stat="idaentity") 
讨论 
当 是 连续 型 “数值 型 ) 变量 时 ， 条 形 图 的 结果 与 上 图 会 略 有 不 同 。 此 时 ，ggplot 不 是 
只 在 实际 取 值 处 绘制 条 形 ， 而 将 在 x 轴 上 介 于 最 大 值 和 最 小 值 之 间 所 有 可 能 的 取 值 处 绘 
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制 条 形 ， 如 图 3-2 所 示 。 我 们 可 以 使 用 factor () 函数 将 连续 型 变量 转化 为 离散 型 变量 。 


BOD 


Time demand 

1 8.3 
10.3 
19.0 
16.0 
15.6 
19.8 


~ on 心 


str (BOD) 


'data. frame': 6 obs. of 2 variables: 

$ Time : nm 123457 

$ demand: num 8.3 10.3 19 16 15.6 19.8 

- attr(*, "reference")= chr "Al.4, p. 270" 


(x=Time, y=demand)) + geom bar (Stat= ) 


[0 


ggplot (BOD, ae 
|] factor () 函数 将 Time 转化 为 离散 型 ( 分 类 ) 变量 
ggplot (BOD, aes (x=factor (Time), y=demand)) + geom bar (stat= ) 


业 合用 下 
¥ XA/T 
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3-1 x 轴 为 离散 时 ， 针 对 变量 值 绘制 的 条 形 图 ( 参数 stat="identity") 
本 例 中 ， 数 据 集中 包含 两 列 分 别 对 应 于 x 和 yy 变量 。 如 果 你 想 让 条 形 图 的 高 度 与 每 组 
变量 的 频数 相对 应 ， 可 参见 3.3 节 的 内 容 。 


默认 设置 上， 条 形 图 的 填充 色 为 黑 灰 色 且 条 形 图 没有 边框 线 ， 我 们 可 通过 调整 fil1 参 
数 的 值 来 改变 条 形 图 的 填充 色 ; 可 通过 colour 参数 为 条 形 图 添加 边框 线 。 在 图 3-3 中 ， 
我 们 将 填充 色 和 边框 线 分 别 指定 为 浅 蓝 色 和 黑色 。 
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量 右 图 : 将 x 转 化 为 因子 型 变量 之 后 绘制 的 条 形 图 ( 注意 此 处 缺失 了 取 值 为 6 的 条 形 ) 
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Th Sat Sun 
| day 
| = 
图 3-3 所 有 条 形 的 填充 色 和 边框 线 颜 色 均 为 单 色 
ggplot (Pg_mean，aes (x=group, y=weight)) + 
geom bar (stat=" t “ew e", COolour="} eh 
wt 在 ggplot2 中 ， 左 色 参 数 默 认 使 用 的 是 英 式 拼写 colour， 而 非 美式 拼写 color。 然 而 ， 
J | ggplot2 会 在 底层 将 美式 拼写 重 映射 为 英 式 拼写 ， 因 此 输入 美式 拼写 的 参数 并 不 影 
W、 帮 S$， 响 函数 的 运行 . 
为 见 


如 果 你 想 让 条 形 图 的 高 度 对 应 于 每 组 变量 的 频数 ， 可 参见 3.3 


根据 另 一 个 变量 值 重 排 因子 水 平顺 序 的 内 容 可 参见 15.9 节 。 
内 容 ， 可 参见 15.8 节 。 


更 多 关于 图 形 着 色 的 内 容 ， 可 参见 本 书 第 12 章 。 


节 的 内 容 。 


手动 更 改 因子 水 平顺 序 的 


3-2 左 图 : 针对 变量 值 绘制 的 条 形 图 ( 参数 stat="identity" ), x 轴 对 应 的 是 连续 型 变 





3.2 ”绘制 簇 状 条 形 图 


问题 
如 何 绘制 基于 某 个 分 类 变量 的 簇 状 条 形 图 ? 


方法 
将 分 类 变量 映射 到 fill 参数 ， 并 运行 命令 geom bar (position="dodge") 。 


下 面 以 cabbage exp 数据 集 为 例 演示 一 下 绘图 过 程 ，cabbage_exp 数据 集 包含 两 个 分 
类 变量 cultivar 和 Date 及 一 个 连续 型 变量 Weight。 


library (gcookbook) # 为 了 使 用 数据 
cabbage exp 


Cultivar Date Weight 
c39 dl6 3.18 
c39 d20 2.80 
c39 d21 2.74 
c52 dl6 2.26 
cC52 20 3,.11 


c52 d21 1.47 
我 们 分 别 将 Date 和 Cultivar 映射 给 x 和 fill ( 见 图 3-4)。 
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图 3-4” 禾 状 条 形 图 
ggplot (cabbage exp, aes (x=Date, y=Weight, fill=Cultivar)) + 
geom bar (position="dodge", stat="identity") 
%, 全 
讨论 


最 简单 的 条 形 图 通常 只 对 应 一 个 绘制 在 x 轴 上 的 分 类 变量 和 一 个 绘制 在 y 轴 上 的 连续 
型 变量 。 有 时候， 我 们 想 额 外 添加 一 个 分 类 变量 跟 x 轴 上 的 分 类 变量 一 起 对 数据 进行 
分 组 。 此 时 ， 可 通过 将 该 分 类 变量 映射 给 fil1 参数 来 绘制 禾 状 条 形 图 ， 这 里 的 fill 参 
数 用 来 指定 条 形 的 填充 色 。 在 这 一 过 程 中 必须 令 参 数 position="dodge" 以 使 得 两 组 


条 形 图 19 


条 形 在 水 平方 向 上 错开 排列 ， 否 则 ， 系 统 会 输出 堆积 条 形 图 (参见 3.7 节 )。 
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3-5 ”添加 了 黑色 边框 线 的 簇 状 条 形 图 ， 这 里 用 了 新 的 调 色 板 
与 映射 给 条 形 图 x 轴 的 变量 类 似 ， 映 射 给 条 形 填 充 色 参数 的 变量 应 该 是 分 类 变量 而 不 
是 连续 型 变量 。 
我 们 可 以 通过 将 geom_bar() 中 的 参数 指定 为 colour="black" 为 条 形 添 加 黑色 边 
框 线 ， 可 以 通过 scale_fill brewer() 或 者 scale_fill manual() 函数 对 图 形 颜 
色 进 行 设置 。 在 图 3-5 中 ， 我 们 使 用 RColorBrewer 包 中 的 Pastell 调 色 盘 对 图 形 
进行 调 色 。 

ggplot (cabbage exp, aes (x=Date, y=Weight, fill=Cultivar)) + 


geom bar(position=" Je", stat="identity", colour="black") + 
scale fill brewer (palette="Pastell") 


其 他 图 形 属性 诸如 颜色 colour 指 定 条 形 图 的 边框 线 颜 色 ) 和 线 型 (linestyle) 也 
能 用 来 对 变量 进行 分 组 ， 不 过 ， 填 充 色 (fi11) 也 许 是 最 合 人 心意 的 图 形 属性 。 


注意 ， 如 果 分 类 变量 各 水 平 的 组 合 中 有 缺失 项 ， 那 么 ， 绘 图 结果 中 的 条 形 则 相应 地 略 去 
不 绘 ， 同 时 ， 临 近 的 条 形 将 自动 扩充 到 相应 位 置 。 删 去 上 例 数据 中 的 最 后 一 行 后 ， 可 得 


到 图 3-6。 
ce <- cabbage exp[1:5,] ## 复 制 删 除了 最 后 一 行 的 数据 集 
ce 


Cultivar Date Weight 
c39 dl6 3.18 
c39 d20 2.80 
c39 d21 2.74 
c52 dl6 2.26 
c52 d20 3.11 


ggplot (ce, aes (x=Date, y=Weight, fill=Cultivar)) + 
geom bar{(position="dodge", stat="identity", colour="black") + 
scale fill brewer (palette="Pastell1") 


如 果 你 的 数据 与 上 面 类 似 ， 那 么 ， 你 可 以 在 分 类 变量 组 合 缺失 的 那 一 项 为 变量 y 手动 
输入 一 个 NA 值 。 
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图 3-6 ”缺失 条 形 的 族 状 条 形 图 自动 扩充 到 相应 位 置 


男 见 


更 多 关于 条 形 图 着 色 的 内 容 ， 可 参见 3.4 节 。 
根据 另 一 个 变量 值 重 排 因 子 水 平顺 序 的 内 容 可 参见 15.9 节 。 


3.3 绘制 频数 条 形 图 

问题 

如 果 数 据 集 中 每 行 数据 对 应 于 一 个 样本 ， 如 何 针 对 样本 频数 绘制 条 形 图 ? 
方法 


使 用 geom bar () 函数 ， 同 时 不 要 映射 任何 变量 到 y 参数 〈( 见 图 3-7)。 





ggplot (diamonds, aes (x=cut)) geom bar () 
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图 3-7 频数 条 形 图 
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讨论 
diamonds 数据 集 共 有 53 940 行 数 据 ， 每 行 数据 对 应 于 一 颗 钻 石 的 品质 信息 : 


diamonds 

carat cut color clarity depth table price x y Z 
1 0.23 Ideal E SI2 61.5 55 326 3.95 3.98 2.43 
2 0.21 Premium E SI1 59.8 61 326 3.89 3.84 2.31 
3 0.23 Good E VS1 56.9 65 327 4.05 4.07 2.31 
53539 0.86 Premium H SI2 61.0 58 2757 ‘6.15 ”6.12 3.74 
53540 0.75 Ideal D SI2 62.2 55 2757 5.83 5.87 3.64 


geom_bar() 函数 在 默认 情况 下 将 参数 设 定 为 stat="bin"， 该 操作 会 自动 计算 每 组 ( 根 
据 x 轴 上 面 的 变量 进行 分 组 ) 变量 对 应 的 观测 数 。 从 图 中 可 以 看 到 ， 切 工 精 美的 钻石 大 
概 有 23 000 颗 。 

本 例 中 ，x 轴 对 应 的 是 离散 型 变量 。 当 x 轴 对 应 于 连续 型 变量 时 ， 我 们 会 得 到 一 张 直 
方 图 ， 如 图 3-8 所 示 。 


ggplot (diamonds，aes (x=carat)) + geom bar() 
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3-8 xx 轴 对 应 于 连续 型 变量 的 条 形 图 ， 也 即 常 说 的 直方 图 
在 这 个 例子 中 ， 使 用 geom bar () 和 geom histogram() 具有 相同 的 效果 。 
男 见 


如 果 不 想 让 ggplot () 函数 自动 计算 每 组 数据 的 行 数 绘制 频数 条 形 图 ， 而 是 想 通 过 数据 
框 中 的 某 列 来 指定 y 参数 的 话 ， 可 以 参见 3.1 节 的 内 容 。 


当然 ， 也 可 以 通过 先 计 算出 每 组 数据 的 行 数 ， 再 将 计算 结果 传递 给 ggplot () 函数 来 绘 
制 上 图 。 更 多 关于 数据 描述 的 内 容 ， 可 参见 15.17 节 。 


更 多 关于 直方 图 的 内 容 ， 可 参见 6.1 节 。 
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3.4 条 形 图 着 色 


问题 
如 何 将 条 形 图 中 的 条 形 设 定 为 不 同 的 颜色 ? 


方法 
将 合适 的 变量 映射 到 填充 色 (fil1) 上 即 可 。 


这 里 以 数据 集 uspopchange 为 例 。 该 数据 集 描述 了 美国 各 州 人 口 自 2000 年 到 2010 年 
的 变化 情况 。 我 们 选取 出 人 口 增 长 最 快 的 十 个 州 进行 绘图 。 图 中 会 根据 地 区 信息 〈 东 
北部 、 南 部 、 中 北部 、 西 部 ) 对 条 形 进行 着 色 。 


首先 ， 选 取出 人 口 增长 最 快 的 十 个 州 : 


library(gcookbook) 间 为 了 使 用 数据 
upc <- subset (uspopchange, rank (Change)>40) 
upc 


State Abb Region Change 

Arizona AZ West 24.6 
Colorado CO West 16.9 
Florida FL South 17.6 
Georgia GA South 18.3 

Idaho ID West 21.1 

Nevada NV West 35.1 

North Carolina NC South 18.5 
South Carolina SC South 15.3 
Texas TX South 20.6 


Utah UT West 23.8 


接 下 来 ， 将 Region 映射 到 fill 并 绘制 条 形 图 ( 见 图 3-9): 


ggplot (upc, aes (x=Abb, y=Change, fill=Region)) + geom bar (Stat="identity") 
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3-9 ”将 分 类 变量 映射 给 fi11 参数 
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讨论 

条 形 图 的 默认 颜色 不 太 吸 引 眼 球 ， 因 此 ， 可 能 需要 借助 函数 scale_fill brewer() 或 
scale fill manual() 重新 设 定 图 形 颜色 。 这 里 我 们 调用 后 者 。 我 们 通过 把 参数 指定 
为 colour="black" 将 条 形 的 边框 线 设 定 为 黑色 〈 见 图 3-10)。 注 意 : 颜色 的 映射 设 定 
是 在 aes () 内 部 完成 的 ， 而 颜色 的 重新 设 定 是 在 aes () 外 部 完成 的 : 


ggplot (upc, aes (x=reorder (Abb, Change), y=Change, fill=Region)) + 


geom bar (stat="identity", colour="black") + 
scale fill manual (values=c ("#669933", "#FFCC66")) + 
xlab ("State") 
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3-10 ”分 类 着 色 、 具 有 黑色 边框 线 的 簇 状 条 形 图 ， 条 形 根据 人 口 变动 百分比 排序 
本 例 用 到 了 reordez () 函数 。 在 本 例 中 ， 根 据 条 形 图 的 高 度 进行 排序 比 按照 字母 顺序 
对 分 类 变量 排序 更 有 意义 。 


另 见 
更 多 关于 使 用 reorder () 函数 将 因子 根据 男 一 个 变量 重新 水 平 排序 的 内 容 ， 可 参见 15.9 节 。 


更 多 关于 图 形 着 色 的 内 容 ， 参 见 第 12 章 。 


3.5 ”对 正 负 条 形 图 分 别 着 色 


问题 
如 何 根据 条 形 对 应 的 正 负 取 值 对 其 进行 分 别 着 色 ? 
方法 


下 面 以 climate 数据 的 一 个 子 集 为 例 。 首 先 ， 创 建 一 个 对 取 值 正 负 情况 进行 标示 的 变量 pos: 
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library (gcookbook) 打 为 了 使 用 数据 
csub <- subset (climate, Source=="Berkeley" & Year >= 15900) 
csub$pos <- csub$Anomalyl0y >= 


csub 


Source Year Anomalyly Anomaly5y Anomalyl0y Uncl0y 
Berkeley 1900 -0.171 0.108 FALSE 
Berkeley 1901 -0.162 0.109 FALSE 
Berkeley 1902 -0.177 0.108 FALSE 


0.856 0.028 TRUE 
0.869 0.028 TRUE 
0.884 0.029 TRUE 


Berkeley 2002 

Berkeley 2003 

Berkeley 2004 
上 述 过 程 准备 完毕 后 ， 将 pos 映射 给 填充 色 参 数 (fi11) 并 绘制 条 形 图 ( 见 图 3-11)。 
注意 : 这 里 条 形 图 的 参数 设 定 为 position="identity"， 可 以 避免 系统 因 对 负 值 绘制 
堆积 条 形 而 发 出 的 警告 信息 。 


ggplot (csub, aes (x=Year, y=Anomalyl0y, fill=pos))+ 
geom bar(stat="identity", position="identity") 
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图 3-11 对 正 负 取 值 的 条 形 分 别 着 色 

讨论 

上 面 的 绘图 过 程 存在 一 些 问题 。 首 先 ， 图 形 着 色 效 果 可 能 跟 我 们 想 要 的 相反 蓝 色 是 冷 
色 ， 通 常 对 应 于 负 值 ， 红 色 是 暖色 ， 通常 对 应 于 正 值 。 其 次 ， 图 例 显得 多 余 且 扰乱 视觉 。 


我 们 可 以 通过 scale fill manual () 参数 对 图 形 颜色 进行 调整 ， 设 定 参 数 guide=FALSE 
可 以 删除 图 例 ， 如 图 3-12 所 示 。 同 时 ， 我 们 通过 设 定 边 框 颜色 〈colour) 和 边框 线 宽 
度 (size) 为 图 形 填 加 一 个 细 黑 色 边 框 。 其 中 ， 边 框 线 宽 度 (size) 是 用 来 控制 边框 线 
宽度 的 参数 ， 单 位 是 毫米 : 


ggplot (csub, aes (x=Year, y=Anomalyl0y, fill=pos)) + 
geom bar(stat="identity", position="identity", colour="black", size=0 .25) + 


scale fill manual (values=c ("#CCEEFF", "#FFDDDD"), guide=FALSE) 
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图 3-12 ”重新 设 定 颜色 并 移 除 了 图 例 的 条 形 图 


另 见 
更 多 关于 更 改 图 形 颜 色 的 内 容 可 参见 12.3 节 和 12.4 节 。 
更 多 关于 隐藏 图 例 的 内 容 可 参见 10.1 节 。 


3.6 ”调整 条 形 宽度 和 条 形 间 距 
问题 


如 何 调整 条 形 图 的 条 形 宽度 和 条 形 间 旦 


方法 


通过 设 定 geom_bar () 函数 的 参数 width 可 以 使 条 形 dade 者 更 罕 。 该 参数 的 默 


认 值 为 0.9;， 更 大 的 值 将 使 绘制 的 条 形 更 宽 ， 反 之 则 是 更 罕 〈 见 图 3-13 ) 


例如 ， 标 准 宽度 的 条 形 图 如 下 : 








library (gcookbook) # 为 了 使 用 数据 
ggplot (Pg_mean，aes (x=group, y=weight)) + geom bar (Stat=” t ") 
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图 3-13 ”对 应 于 不 同 条 形 宽度 的 条 形 图 
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窄 些 的 条 形 图 : 
ggplot (pg mean, aes (x=group, y=weight)) + geom bar(stat="identity", width=0.5 
宽 些 的 条 形 图 (条 形 图 的 最 大 宽度 为 1): 
ggplot (pg_mean, aes (x=group, y=weight)) + geom bar(stat="identity", width=1) 
秘 状 条 形 图 默认 组 内 的 条 形 间 距 为 0。 如 果 希 望 增加 组 内 条 形 的 间距 ， 则 可 以 通过 
将 width 设 定 得 小 一 些 ， 并 令 position dodge 的 取 值 大 于 width ( 见 图 3-14)。 
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图 3-14， 左 图 : 条 形 更 罕 的 谍 状 条 形 图 “ 右 图 : 具有 条 形 间距 的 能 状 条 形 图 


更 罕 的 艇 状 条 形 图 可 运行 : 
ggplot (cabbage exp, aes (x=Date, y=Weight, fill=Cultivar)) + 
geom bar(stat="identity", width=0.5, position="dodge") 
添加 条 形 组 距 可 运行 : 
ggplot (cabbage exp, aes (x=Date, y=Weight, fill=Cultivar)) + 
geom bar(stat="identity", width=0.5, position=position dodge(0.7)) 


第 一 幅 图 的 绘图 命令 中 用 到 了 参数 position="dodge", 第 二 幅 图 的 绘图 命令 中 用 到 的 参 
数 是 position=position dodge () 。 这 是 因为 position="dodge" 是 参数 默认 为 0.9 的 
position_dodge () 的 简写 。 当 我 们 需要 单独 指定 该 参数 的 时 候 ， 必 须 输 入 完整 的 命令 。 


讨论 
width 参数 的 默认 值 是 0.9，position dodge 函数 中 width 参数 的 默认 值 也 是 0.9。 更 确 
切 地 说 ，position dodge 函数 和 geom_bar() 函数 中 的 width 参数 的 取 值 是 一 样 的 。 


下 面 的 四 个 命令 是 等 价 的 : 


geom bar (position="dodge") 

geom bar(width=0.9, position=position dodge()) 

geom bar (position=position dodge(0.9)) 

geom bar(width=0,9, position=position dodge (width=0 .9)) 


条 形 图 中 ， 条 形 中心 对 应 的 x 轴 坐标 分 别 是 1、2、3 等 ， 但 通常 我 们 不 会 利用 上 这 些 
数值 。 当 用 户 运 行 命令 geom_bar (width=0.9) 时 ， 每 组 条 形 将 在 x 轴 上 占据 0.9 个 单 
位 宽度 。 运 行 命令 position dodge (width=0.9) 时 ，ggplot2 会 自动 调整 条 形 位 置 ， 
以 使 每 个 条 形 的 中 心 恰好 位 于 当 每 组 条 形 宽 度 为 0.9， 且 组 内 条 形 紧 贴 在 一 起 时 的 位 
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置 ， 如 图 3-15 所 示 。 图 中 上 下 两 部 分 都 对 应 position dodge (width=0.9) ， 只 是 上 图 
对 应 于 0.9 的 条 形 宽度 ， 下 图 对 应 于 0.2 的 条 形 宽度 。 虽 然 上 下 两 部 分 对 应 的 条 形 宽 
度 不 同 ， 但 两 图 的 条 形 中 心 是 上 下 对 齐 的 。 


3-15 ”条 形 间 距 相 同 但 条 形 宽度 不 同 的 簇 状 条 形 图 

如 果 你 将 整 幅 图 形 进行 伸缩 ， 条 形 图 也 会 依照 相应 的 比例 进行 伸缩 。 要 了 解 图 形 是 怎 
样 变化 的 ， 只 需 改变 图 形 所 在 窗口 的 大 小 ， 然 后 ， 观 察 图 形 的 变化 即 可 。 更 多 关于 在 
输出 图 形 文件 时 控制 图 片 大 小 的 内 容 可 参见 第 14 章 。 


3.7 ”绘制 堆积 条 形 图 




















问题 
如 何 绘制 堆积 条 形 图 ? 
方法 


使 用 geom bar() 函数 ， 并 映射 一 个 变量 给 填充 色 参 数 (fil1)〉 即 可 。 该 命令 会 将 Date 
对 应 到 x 轴 上 ， 并 以 cultivar 作为 填充 色 ， 如 图 3-16 所 示 。 


library (gcookbook) # 为 了 使 用 数据 
ggplot (cabbage exp, SS =Date, y=Weight, fill=Cultivar)) + 
geom bar (stat="identity") 


讨论 

弄 清楚 图 形 对 应 的 数据 结构 有 助 于 理解 图 形 的 绘制 过 程 。 上 例 数据 集中 Date 变量 对 应 
于 三 个 水 平 、cultivar 变量 对 应 于 两 个 水 平 ， 两 个 变量 不 同 水 平 的 组 合 又 分 别 与 一 个 
Weight 变量 相对 应 : 
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cabbage exp 


Cultivar Date Weight sd n se 
c39 di6 3.18 0.9566144 10 0.30250803 
c39 d20 2.80 0.2788867 10 0.08819171 
c39  d21 2.74 0.9834181 10 0.31098410 
c52 dl6 2.26 0.4452215 10 0.14079141 
c52 d20 3.11 0.7908505 10 0.25008887 
c52 d21 1.47 0.2110819 10 0.06674995 








Cultivar 
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d16 d20 d21 
Date 

















图 3-16 ”堆积 条 形 图 

默认 绘制 的 条 形 图 有 一 个 问题 ， 即 条 形 的 堆积 顺序 与 图 例 顺序 是 相反 的 。 我 们 可 以 通 
过 guides() 函数 对 图 例 顺序 进行 调整 ， 并 指定 图 例 所 对 应 的 需要 调整 的 图 形 属性 ， 本 
例 中 对 应 的 是 填充 色 (fi11)， 如 图 3-17 所 示 。 


ggplot (cabbage exp, aes (x=Date, y=Weight, fill=Cultivar)) + 
geom bar(stat="identity") + 
guides (fill=guide legend (reverse=TRUE)) 





Cultivar 











Date 





3-17 ”调整 图 例 顺序 后 的 堆积 条 形 图 
如 果 你 想 调整 条 形 的 堆 释 顺序 ， 可 以 通过 指定 图 形 映射 中 的 参数 order=desc () 来 实现 : 
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library (plyr) # 为 了 使 用 desc() 函数 
ggplot (cabbage exp, bi Date, y=Weight, fill=Cultivar, order=desc (Cultivar))) + 
geom bar (stat="iden tity") 








Weight 
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| Date 








3-18 ”翻转 了 堆 倒 顺序 的 堆积 条 形 图 


当然 ， 也 可 以 通过 调整 数据 框 中 对 应 列 的 因子 顺序 来 实现 上 述 操 作 (参见 15.8 节 )， 
但 需 谨慎 进行 该 操作 ， 因 为 对 数据 进行 修改 可 能 导致 其 他 分 析 结 果 也 发 生 改变 。 


为 了 获得 效果 更 好 的 条 形 图 ， 我 们 保持 逆序 的 图 例 顺 序 不 变 ， 同 时 ， 使 用 scale_ 
fill _brewer () 函数 得 到 一 个 新 的 调 色 板 ， 最 后 设 定 colour="black" 为 条 形 添加 一 
个 黑色 边框 线 (如 图 3-19 所 示 )。 
ggplot (cabbage exp, aes (x=Date, y=Weight, fill=Cultivar)) + 
geom bar (stat="identity", colour="black") + 
guides (fill=guide legend (reverse=TRUE)) + 
scale fill brewer (palette="Pastell") 





es 





Date 














3-19 ”翻转 图 例 顺 序 ， 使 用 新 调 色 板 和 黑色 边框 线 的 堆积 条 形 图 
发 见 
更 多 关于 条 形 图 着 色 的 内 容 可 参见 3.4 节 。 
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将 因子 根据 另 一 个 变量 重新 排列 水 平顺 序 的 内 容 可 参见 15.9 节 。 手 动 更 改 因子 水 平顺 
序 的 内 容 ， 可 参见 15.8 节 。 


3.8 绘制 百分比 堆积 条 形 图 


问题 

如 何 绘制 可 展示 百分比 的 堆积 条 形 图 (又 叫 百分比 堆积 条 形 图 )? 

方法 

首先 ， 通 过 plyr 包 中 的 ddply () 函数 和 transform() 函数 将 每 组 条 形 对 应 的 数据 标准 
化 为 100% 格式 ， 之 后 ， 针 对 计算 得 到 的 结果 绘制 堆积 条 形 图 即 可 ， 如 图 3-20 所 示 。 


Library(gcookbook) # 为 了 使 用 数据 
library (plyr) 
# 以 Date 为 切割 变量 () 对 每 组 款 据 进行 transform() 
ce <- ddply(cabbage exp, "Date", transform, 
percent weight = Weight / sum(Weight) * ) 


ggplot (ce, aes (x=Date, y=percent weight, fill=Cultivar)) + 
geom bar(stat="identity") 
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3-20 ”百分比 堆积 条 形 图 
讨论 
我 们 用 adply() 函数 计算 每 组 Date 变量 对 应 的 百分比 。 本 例 中 ，ddply() 函数 根据 指 


定 的 变量 Date 对 数据 框 cabbage_exp 进行 分 组 ， 并 对 各 组 数据 执行 transform() 转 
数 〈ddply() 函数 中 设 定 的 其 他 参数 也 会 传递 给 该 函数 )。 


下 面 是 cabbage_exp 数据 ， 从 中 可 以 看 出 ddply() 命令 对 其 进行 操作 的 过 程 。 
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cabbage exp 


Cultivar Date Weight sd n se 
c39 dl6 3.18 0.9566144 10 0.30250803 
c39 d20 2.80 0.2788867 10 0.08819171 


c39 d21 2.74 0.9834181 10 0.31098410 
c52 dl6 2.26 0.4452215 10 0.14079141 
c52 d20 3.11 0.7908505 10 0.25008887 
c52 d21 1.47 0.2110819 10 0.06674995 
ce <- ddply(cabbage exp, "Date", transform, 


percent weight = Weight / sum(Weight) * ) 


Cultivar Date Weight sd n se percent weight 
c39 dl16 3.18 0.9566144 10 0.30250803 58.45588 
c52 d16 2.26 0.4452215 10 0.14079141 41.54412 
c39 d20 2.80 0.2788867 10 0.08819171 47.37733 
c52 d20 3.11 0.7908505 10 0.25008887 52.62267 
c39 d21 2.74 0.9834181 10 0.31098410 65.08314 
c52 d21 1.47 0.2110819 10 0.06674995 34.91686 


计算 出 百分比 之 后 ， 就 可 以 按照 绘制 常规 堆积 条 形 图 的 方法 来 绘制 百分比 堆积 条 形 图 了 。 


跟 常 规 堆积 条 形 图 一 样 ， 我 们 可 以 调整 百分比 堆积 条 形 图 的 图 例 顺序 、 更 换 调 色 板 及 
添加 边框 线 ， 如 图 3-21 所 示 。 
ggplot (ce, aes (x=Date, y=percent weight, fill=Cultivar)) + 
geom bar (stat="i titry", colour="black") + 
guides (fill=guide legend (reverse=TRUE)) + 
scale fill brewer (palette="Pastell1") 
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3-21” 反 转 图 例 顺序 ， 使 用 新 调 色 板 和 黑色 边线 框 的 百分比 堆积 条 形 图 
参见 
更 多 关于 分 组 对 数据 进行 变换 的 内 容 可 参见 15.16 节 。 
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3.9 添加 数据 标签 
问题 


如 何 给 条 形 图 添加 数据 标签 ? 

方法 

在 绘图 命令 中 加 上 geom_text () 即 可 为 条 形 图 添加 数据 标签 。 运 行 命令 时 ， 需 要 分 别 
指定 一 个 变量 映射 给 x、y 和 标签 本 身 。 通 过 设 定 vjust〈 竖 直 调 整数 据 标签 位 置 ) 可 
以 将 标签 位 置 移动 至 条 形 图 顶端 的 上 方 或 者 下 方 ， 如 图 3-22 所 示 。 


library (gcookbook) + 


ggplot (cabbage exp, aes (x=interaction(Date, Cultivar), y=Weight)) + 





geom bar (stat= 让 本 
geom text (aes (label=Weight), vjust= Colour= ) 
ggplot (cabbage exp, aes (x=interaction(Date, Cultivar), y=Weight)) + 
geom bar(S ) + 
geom text (aes (label=Weight), vjust= ) 
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3-22 左 图 : 置 于 条 形 图 顶端 下 方 的 数据 标签 ” 右 图 : 置 于 条 形 图 顶端 上 方 的 数据 标签 
注意 ， 当 数据 标签 被 置 于 条 形 图 顶端 时 ， 它 们 可 能 会 被 遮挡 。 为 了 避免 这 个 问题 ， 可 
以 参见 8.2 节 的 内 容 。 

讨论 

在 图 3-22 中 ， 数 据 标 签 的 y 轴 坐标 位 于 每 个 条 形 的 顶端 中 心 位 置 ， 通 过 设 定 竖 直 调 整 
(vjust) 可 以 将 数据 标签 置 于 条 形 图 顶端 的 上 方 或 者 下 方 。 这 种 做 法 的 不 足 之 处 在 于 
当 数 据 标签 被 置 于 条 形 图 顶端 上 方 时 有 可 能 使 数据 标签 溢出 绘图 区 域 。 为 了 修正 这 个 
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问题 ， 我 们 可 以 手动 设 定 y 轴 的 范围 ， 也 可 以 保持 竖 直 调整 不 变 ， 而 令 数 据 标签 的 y 
轴 坐 标高 于 条 形 图 顶端 。 后 一 种 办 法 的 不 足 之 处 在 于 ， 当 你 想 将 数据 标签 完全 置 于 条 
形 图 顶端 上 方 或 者 下 方 的 时 候 ， 竖 直方 向 调整 的 幅度 依赖 于 y 轴 的 数据 范围 ， 而 更 改 
vjust 时 ， 数 据 标签 离 条 形 顶 端的 距离 会 根据 条 形 图 的 高 度 自动 进行 调整 。 

# 将 y 轴 上 限 变 大 


ggplot (cabbage exp, aes (x=interaction(Date, Cultivar), y=Weight)) + 
geom bar (stat="identity") + 
geom text (aes (label="Weight"), vjust=-0.2) + 
ylim(0, max (cabbage exp$Weight)*1.05) 


# 设 定 标签 的 y 轴 位 置 使 其 咯 高 于 条 形 图 顶端 一 y 轴 范 围 会 自动 调整 

ggplot (cabbage exp, aes (X=interaction (Date, Cultivar), y=Weight)) + 
geom bar(stat="identity") + 
geom text (aes (y=Weight+0.1, label=Weight)) 


对 于 簇 状 条 形 图 ， 需 要 设 定 position=position dodge () 并 给 其 一 个 参数 来 设 定 分 类 
间距 。 分 类 间距 的 默认 值 是 0.9， 因 为 簇 状 条 形 图 的 条 形 更 窄 ， 所 以 ， 需 要 使 用 字号 
(size) 来 缩小 数据 标签 的 字体 大 小 以 匹配 条 形 宽度 。 数 据 标签 的 默认 字号 是 5， 这 里 
我 们 将 字号 设 定 为 3 使 其 看 起 来 更 小 〈 见 图 3-23 )。 


ggplot (cabbage exp, aes (x=Date, y=Weight, fill=Cultivar)) + 


geom bar (stat="identity", position="dodge") + 
geom text (aes (label=Weight), Vjust=] ,5, colour="white", 
position=position dodge(.3), size=3) 
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图 3-23” 簇 状 条 形 图 的 数据 标签 

向 堆积 条 形 图 添加 数据 标签 之 前 ， 要 先 对 每 组 条 形 对 应 的 数据 进行 累积 求 和 。 在 进行 
本 操作 之 前 ， 须 保证 数据 的 合理 排序 ， 否 则 ， 可 能 计算 出 错误 的 累积 和 。 我 们 可 以 用 
plyr 包 中 的 arrange () 函数 完成 上 述 操 作 ，plyr 包 是 一 个 随 ggplot2 包 加 载 的 软件 包 。 


library (plyr) 
# 根据 日 期 和 性 别 对 数据 进行 排序 


ce <- arrange (cabbage exp, Date, Cultivar) 
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确认 数据 合理 排序 之 后 ， 我 们 可 以 借助 ddply () 函数 以 Date 为 分 组 变量 对 数据 进行 分 


组 ， 并 分 别 计算 每 组 数据 对 应 的 变量 weight 的 累积 和 。 
# 计算 票 积 和 


ce <- ddply(ce, "Date", transform, label y=cumsum (Weight)) 

ce 

Cultivar Date Weight sd n se percent weight label y 
c39 dl6 3.18 0.9566144 10 0.30250803 58.45588 3.18 
c52 dl6 2.26 0.4452215 10 0.14079141 41.54412 5.44 
c39 d20 2.80 0.2788867 10 0.08819171 47.37733 2.80 
c52 d20 3.11 0.7908505 10 0.25008887 52.62267 5.91 
c39 d21 2.74 0.9834181 10 0.31098410 65.08314 2.74 
c52 d21 1.47 0.2110819 10 0.06674995 34.91686 4.21 


ggplot (ce, aes (x=Date, y=Weight, fill=Cultivar)) + 
geom barl(stat="identity") + 


geom text (aes (y=label y, label=Weight), vjust=].: 


结果 如 图 3-24 所 示 。 
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图 3-24 ”堆积 条 形 图 的 数据 标签 


使 用 数据 标签 时 ， 对 堆 合 顺序 的 调整 最 好 是 通过 在 计算 累积 和 之 前 修改 因子 的 水 平顺 
序 〈 参 见 15.8 节 ) 来 完成 。 另 一 种 修改 堆 登 顺序 的 方法 是 在 标 度 中 指定 breaks 参数 ， 
但 在 这 里 此 方法 并 不 合适 ， 因 为 累计 求 和 的 顺序 与 堆 县 的 顺序 并 不 一 致 。 


如 果 想 把 数据 标签 置 于 条 形 中 部 〈 见 图 3-25)， 须 对 累计 求 和 的 结果 加 以 调整 ， 并 同 
时 略 去 geom bar() 函数 中 对 偏 移 量 (offset) 的 设置 : 


ce <- arrange (cabbage exp, Date, Cultivar) 


# 计算 y 轴 的 位 置 ， 将 数据 标签 置 于 条 形 中 部 


ce <- ddply(ce, "Date", transform, label y=cumsum (Weight)-0. 


ggplot (ce, aes (x=Date, y=Weight, fill=Cultivar))+ 


*Weight) 
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geom bar (stat="identity")+ 
geom text (aes (y=label y, label=Weight), colour="White") 
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图 3-25 ” 置 于 堆积 条 形 图 条 形 中 部 的 数据 标签 
为 了 得 到 效果 更 好 的 条 形 图 ( 见 图 3-26)， 我 们 修改 一 下 图 例 顺序 和 颜色 ， 将 数据 标 
签 置 于 条 形 中 间 ， 同 时 通过 字号 参数 (size) 缩小 标签 字号 ， 并 调用 paste 函数 在 标 
签 后 面 添加 “kg”， 为 了 使 得 标签 保留 两 位 小 数 我 们 还 需 调用 format 函数 : 
ggplot (ce，aes (x=Date，y=Weight，fil1l=Cultivar)) + 
geom bar(stat="identity", colour="black") + 
geom text (aes (y=label y, label=paste (format (Weight, nsmall=2), "kg")), 
Size=4)+ 
guides (fill=guide legend (reverse=TRUE)) + 
scale fill brewerl(palette="Pastell") 
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图 3-26 ” 自 定义 的 带 数据 标签 的 堆积 条 形 图 
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另 见 
更 多 关于 控制 文本 格式 的 内 容 可 参见 9.2 节 
更 多 关于 分 组 转换 数据 的 内 容 可 参见 15.6 节 。 
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3.10 绘制 Cleveland 点 图 
问题 


如 何 绘制 Cleveland 点 图 ? 


方法 


有 时 人 们 会 用 Cleverland 点 图 来 替代 条 形 图 以 减少 图 形 造 成 的 视觉 混乱 并 使 图 形 更 具 可 


最 简便 的 绘制 Cleverland 点 图 的 方法 是 直接 运行 geom_point () 命令 ( 见 图 3-27)。 


library (gcookbook) # 为 了 使 用 数据 


tophit <- tophitters2001[1:25，] # 取出 tophitters 数据 集中 的 前 25 个 数据 


ggplot (tophit, aes (x=avg, y=name)) + geom point () 





Todd Helon -~ 本 
Shannon Stewart - 
Sammy Sosa - sr 
Roberto Alomar ~ 全 
Rich Aurilia ~ . 
Paul Lo Duca - 让 
Moises Alou — . 
Luis Gonzalez ~- . 
Larry Walker- 
Lance Berkman - . 
Juan Pierre ~ s 
Juan Gonzalez — . 
Jose Vidro — 中 
Jeff Conine 一 下 
Jeff Cirilo — = 


name 


Ichiro Suzuki - 
Frank Catalanotto ~ 人 
Derek Jeter ~ @ 
Cliff Floyd - 后 





Chipper Jones - 看 
Bret Boone - . 

Barry Bonds ~ TT: 
Alex Rodriguez — . 

Albert Pujols - 四 

1 1 1 1 
0.31 0.32 0.33 0.34 
avg 


Jason Giambi =- 十 











3-27 ”简单 点 图 


条 形 图 
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讨论 
tophitters2001 数据 集 包含 很 多 列 ， 这 里 我 们 只 看 其 中 三 列 : 
tophit[, c("name","lg", "avg")] 
name 1g avg 
Larry Walker NL 0.3501 


Ichiro Suzuki AL 0.3497 
Jason Giambi AL 0.3423 


”Jeff Conine ML 0.3111 
Derek Jeter AL 0.3111 


图 3-27 中 的 名 字 是 按 字 母 先 后 顺序 排列 的 ， 这 种 排列 方式 用 处 不 大 。 通 常 ， 点 图 中 会 
根据 x 轴 对 应 的 连续 变量 的 大 小 取 值 对 数据 进行 排序 。 


尽管 tophit 的 行 顺序 恰好 与 avg 的 大 小 顺序 一 致 ， 但 这 并 不 意味 着 在 图 中 也 是 这 样 排 
序 的 。 在 点 图 的 默认 设置 下 ， 坐 标 轴 上 的 变量 通常 会 根据 变量 类 型 自动 选取 合适 的 排 
序 方式 。 本 例 中 变量 name 属于 字符 串 类 型 ， 因 此 ， 点 图 根据 字母 先后 顺序 对 其 进行 
了 排序 。 当 变量 是 因子 型 变量 时 ， 点 图 会 根据 定义 好 的 因子 水 平顺 序 对 其 进行 排序 。 
现在 ， 我 们 想 根 据 变量 avg 对 变量 name 进行 排序 。 

我 们 可 以 借助 reorder (name,avg) 函数 实现 这 一 过 程 。 该 命令 会 先 将 name 转化 为 因 
子 ， 然 后 ， 根 据 avg 对 其 进行 排序 。 为 使 图 形 效 果 更 好 ， 我 们 借助 图 形 主 题 系统 
(Theming System) 删除 垂直 网 格 线 ， 并 将 水 平 网 格 线 的 线 型 修改 为 虚线 〈 见 图 3-28)。 
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3-28 ”点 图 ， 根 据 平均 击 球 距离 对 姓名 进行 了 排序 
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ggplot (tophit, aes (x=avg, y=reorder (name,avg))) + 
geom point (size=3) + # 使 用 更 大 的 点 
theme bw() + 
theme (panel .grid.major.x = element blank(), 
panel.grid.minor.x = element blank()， 
panel.grid.major.y = element line(colour="grey60", linetype="dashed")) 


我 们 也 可 以 将 点 图 的 x 轴 和 yy 轴 互 换 ， 互 换 后 ，x 轴 对 应 于 姓名 ,yy 轴 将 对 应 于 数值 ， 
如 图 3-29 所 示 。 我 们 也 可 以 将 数据 标签 旋转 60”。 


ggplot (tophit, aes (x=reorder (name, avg), y=avg)) + 
geom point (size=3) + # 使 用 更 大 的 点 
theme bw() + 
theme (axis.text.x = element text (angle=60,hjust=1), 
panel.grid.major.y = element blank(), 
panel.grid.minor.y = element blank()， 
panel.grid.major.x = element line(colour="grey60", linetype="dashed")) 
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图 3-29 x 轴 对 应 于 名 字 , y 轴 对 应 于 变量 值 的 点 图 
有 了 时候， 根据 其 他 变量 对 样本 进行 分 组 很 有 用 。 这 里 我 们 根据 因子 1g 对 样本 进行 分 
组 ， 因 子 1g 对 应 有 NL 和 AL 两 个 水 平 ， 分 别 表 示 国 家 队 (National League) 和 美国 队 
(American league)。 我 们 依次 根据 1g 和 avg 对 变量 进行 排序 。 遗 憾 的 是 ，reorder () 
函数 只 能 根据 一 个 变量 对 因子 水 平 进行 排序 ， 所 以 我 们 只 能 手动 实现 上 述 过 程 。 

# 提取 出 name 变量 ， 依 次 根据 变量 1g 和 avg 对 其 进行 排序 


nameorder <- tophitSname [order (tophitS$1g，tophitS$Savg) ] 


# 将 name 转化 为 因子 ， 因 子 水 平 与 nameorder 一 臻 
tophit$name <- factor (tophit$name, levels=nameorder) 


绘制 点 图 时 〔 见 图 3-30)， 我 们 把 1g 变量 映射 到 点 的 颜色 属性 上 。 借 助 geom_seg- 
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ment () 函数 用 “以 数据 点 为 端点 的 线段 ”代替 贯通 全 图 的 网 格 线 。 注 意 geom seg- 
ment () 函数 需要 设 定 x、y、xend 和 yend 四 个 参数 : 


ggplot (tophit, aes (x=avg, y=name)) + 


geom segment (aes (yend=name), xend=0, colour="grey50") + 
geom point (size=i, aes (colour=1g)) + 
scale colour brewer (palette="Setl", limits=c("NL", "AL")) + 


theme bw() + 
theme (panel .grid.major.y = element blank(), # 删除 水 平 网 格 线 
legend.position=c(1, 0,55), # 将 图 例 放置 在 绘图 区 域 中 


legend.justification=c(1, 0.,5)) 
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3-30 “以 队 为 分 组 变量 的 火柴 村 图 











另外 一 种 分 组 展示 数据 的 方式 是 分 面 ， 如 图 3-31 所 示 。 分 面条 形 图 中 的 条 形 的 扒 伍 顺 
序 与 图 3-30 中 的 堆 释 顺序 有 所 不 同 ， 要 修改 分 面 显示 的 堆 倒 顺序 只 有 通过 调整 1g 变 
量 的 因子 水 平 来 实现 。 
ggplot (tophit, aes (x=avg, y=name)) + 
geom segment (aes (yend=name), xend=0, colour="grey50") + 
geom point (size=’:, aes (colour=1g)) + 


scale colour brewer (palette="Setl", limits=c ("NL",'"AL"), guide=FALSE) + 
theme bw() + 
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theme (panel .grid.major.y = element blank()) + 
facet grid(lg ~ ., scales="free y", space=" 


free y") 
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图 3-31 ”以 队 为 分 组 变量 进行 分 面 绘图 


发 见 


更 多 关于 调整 因子 水 平顺 序 的 内 容 可 参见 15.8 节 。 关 于 基于 其 他 变量 调整 因子 水 平顺 
序 的 细节 内 容 可 参见 15.9 节 。 


更 多 关于 调整 图 例 位 置 的 内 容 可 参见 10.2 节 。 更 多 关于 隐藏 网 格 线 的 内 容 ， 可 参见 9.6 节 。 
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折线 图 





折线 图 通常 用 来 对 两 个 连续 变量 之 间 的 相互 依存 关系 进行 可 视 化 ， 其 中 ，x 轴 对 应 于 
自 变量 ，y 轴 对 应 于 因 变 量 。 一 般 来 说 ， 折 线 图 的 x 轴 对 应 的 是 时 间 变 量 ， 但 也 可 以 
用 来 表示 诸如 实验 对 象 的 药剂 量 等 连续 型 变量 。 

当然 ， 跟 条 形 图 类 似 ， 折 线 图 的 用 法 也 有 例外 。 有 时 候 ， 折 线 图 的 x 轴 也 可 以 与 离散 
型 变量 相对 应 ， 但 此 时 只 适用 于 变量 为 有 序 高 散 型 变量 (比如 “小 “中”、“ 大 ”) 
的 情形 ， 而 不 适用 于 无 序 变量 (比如 “ 牛 ”“ 鹅 ”"“ 猪 ”等 )。 本 章 中 的 大 部 分 案例 
用 到 的 都 是 连续 型 变量 x， 在 其 中 一 个 案例 中 ， 我 们 会 将 连续 型 变量 转化 为 因子 型 变 
量 ， 因 此 ， 它 也 可 以 看 作 是 一 个 针对 离散 型 变量 绘制 折线 图 的 例子 。 


4.1 绘制 简单 折线 图 


问题 

如 何 绘制 简单 折线 图 ? 

方法 

运行 ggplot () 和 geom_line() 函数 ， 并 分 别 指定 一 个 变量 映射 给 x 和 y ( 见 图 4-1)。 
ggplot (BOD，aes (x=Time, y=demand)) + geom line () 

讨论 

对 于 这 个 简单 的 数据 框 ，x 对 应 的 变量 Time 和 y 对 应 的 变量 demand 分 别 对 应 于 数据 

框 的 两 列 数据 : 


BOD 
Time demand 
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图 4-1 简单 折线 图 

折线 图 的 x 轴 既 可 以 对 应 于 离散 型 (分 类 ) 变量 ， 也 可 以 对 应 于 连续 型 (数值 型 ) 变量 。 
本 例 中 Time 变量 为 连续 型 变量 ， 但 我 们 可 以 借助 factor () 函数 将 其 转化 为 因子 型 变 
量 ， 然 后 ， 将 其 当 作 分 类 变量 来 处 理 〈 见 图 4-2)。 当 x 对 应 于 因子 型 变量 时 ， 必 须 使 
用 命令 aes (group=1) 以 确保 ggplot () 知道 这 些 数据 点 属于 同一 个 分 组 ， 从 而 应 该 用 
一 条 折线 连 在 一 起 (关于 为 什么 因子 型 变量 必须 设 定 group 的 内 容 可 以 参见 4.3 节 )。 


BOD1 <- BOD # 将 数据 复制 一 份 
BOD1$Time <- factor (BOD1$Time) 
ggplot (BOD1, aes (x=Time, y=demand, group=i)) + geom line() 
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4-2 x 轴 对 应 于 分 类 变量 的 简单 折线 图 (注意 x 轴 上 没有 对 应 于 水 平 6 的 取 值 ) 

数据 集 Bo0D 中 没有 对 应 于 Time=6 的 数据 点 ， 因 此 当 Time 被 转化 为 因子 型 变量 时 ， 它 
并 没有 6 这 个 水 平 。 因 子 型 变量 对 应 于 分 类 值 ， 这 里 的 6 只 是 其 中 一 个 可 能 的 取 值 。 
因为 数据 集中 恰好 没有 对 应 于 该 水 平 的 数据 点 ， 所 以 ，x 轴 上 没有 绘制 相应 的 取 值 。 
默认 情况 下 ，ggplot2 绘制 的 折线 图 的 y 轴 范围 刚好 能 容纳 数据 集中 的 y 值 。 对 于 某 些 
数据 而 言 ， 我 们 将 y 轴 的 起 点 设 定 为 0 点 会 更 合适 。 你 可 以 运行 ylim() 设 定 y 轴 范围 
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或 者 运行 含 一 个 参数 的 expand_limit () 扩展 y 轴 的 范围 。 下 面 的 命令 将 y 轴 的 范围 
设 定 为 0 到 BoD 中 demand 变量 的 最 大 值 。 

# 运行 下 面 的 命令 得 到 的 结果 是 相同 的 

ggplot (BOD, aes (x=Time, y=demand)) + geom line() + Ylim(0，max (BOD$demand)) 

ggplot (BOD, aes (x=Time, y=demand)) + geom line() + expand limits (y=0) 




















4-3 ”手动 设 定 y 轴 范 围 的 折线 图 

另 见 

更 多 关于 控制 坐标 轴 范 围 的 内 容 参 见 8.2 节 。 
4.2 向 折线 图 添加 数据 标记 
问题 

如 何 向 折线 图 添加 数据 标记 ? 

方法 


在 代码 中 加 上 geom_point () 〈 见 图 4-4): 


ggplot (BOD, aes (x=Time, y=demand)) + geom line() + geom point () 
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图 4-4 ”添加 了 数据 标记 的 折线 图 
讨论 
有 了 时候， 在 折线 图 上 添加 数据 标记 很 有 用 处 。 当 数据 点 的 密度 较 低 或 者 数据 采集 频率 
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不 规则 时 尤其 有 用 。 比 如 ，B0D 数据 集中 没有 与 Time=6 相对 应 的 输入 ， 然 而 ， 这 在 单 
独 的 一 张 折 线 图 看 起 来 并 不 明显 〈 可 比较 一 下 图 4-3 和 图 4-4)。 
worldpop 数据 集 对 应 的 采集 时 间 间 隔 不 是 常数 。 时 间距 今 较 久远 的 数据 采集 频率 比 新 
近 不 久 的 数据 采集 频率 低 。 折 线 图 中 的 数据 标记 表明 了 数据 的 采集 时 间 ( 见 图 4-5): 
library (gcookbook) # 为 了 使 用 数据 
ggplot (worldpop, aes (x=Year, y=Population)) + geom line() + geom point 1() 


# 当 Y 抽取 对 数 时 也 一 样 
ggplot (worldpop, aes (x=Year, y=Population)) + geom line() + geom point() + 
scale y lo0g10() 





图 4-5 ”上 图 : 数据 标记 表明 了 数据 的 采集 时 间 ”下 图 : 对 y 轴 取 对 数 

从 对 y 轴 取 对 数 的 折线 图 上 可 以 看 出 : 在 过 去 数 千年 中 人 口 增长 率 有 所 增加 。 公 元 元 
年 之 前 的 人 口 增长 率 接近 常数 ， 约 每 5000 年 增加 10 倍 。 从 图 中 也 可 以 看 出 ， 近 年 来 
的 人 口 普查 频率 比 以 往 更 为 频繁 ， 数 据 也 更 为 准确 。 


另 见 

更 多 关于 修改 数据 标记 样式 的 内 容 可 参见 4.5 节 。 
4.3 绘制 多 重 折线 图 

问题 

如 何 绘制 多 重 折线 图 ? 
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方法 
在 分 别 设 定 一 个 映射 给 x 和 y 的 基础 上 ， 再 将 另外 一 个 〈 离 散 型 ) 变量 映射 给 颜色 
(colour) 或 者 线 型 (linetype) 即 可 ， 如 图 4-6 所 示 。 


# 载 入 plyr 包 ， 便 于 我 们 使 用 ddply() 函数 创建 样本 数据 集 

library (plyr) 

# 对 ToothGrowth 数据 集 进行 汇总 

tg <- ddply (ToothGrowth, cl("supp", "dose"), summarise, length=mean (len)) 


# 将 supp 映射 给 闸 色 (colour) 
ggplot (tg, aes (x=dose, y=length, colour=supp)) + geom line() 


# 将 supp 映射 给 线 型 (linetype) 
ggplot (tg, aes (x=dose, y=length, linetype=supp)) + geom line() 
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4-6 ” 左 图 : 将 变量 映射 给 颜色 (colour ) 右 图 : 将 变量 映射 给 线 型 ( Ilinetype ) 
讨论 
tg 数 据 集 共 有 三 列 ， 其 中 一 列 是 我 们 映射 给 颜色 (colour) 和 线 型 (1inetype) 的 supp 变量 : 


tg 


supp dose length 
0 0.5 13.23 


0y 1.0 22.70 

0J 2.0 26.06 

Ve 0.5 7.98 

Ve 1.0 16.77 

VC 2.0 26.14 
Str(tg) 


'data.frame': 6 obs. of 3 variables: 

$ supp : Factor W/ 2 levels "OJ","VC": 111222 
$ dose : num 0.5120.512 

$ length: num 13.23 22.7 26.06 7.98 16.77 ... 


如 果 x 变 量 是 因子 ， 你 必须 同时 告诉 ggplot () 用 来 分 组 的 变量 ， 正 如 接 
下 来 要 介绍 的 那样 。 


pe 
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折线 图 的 x 轴 既 可 以 对 应 于 连续 型 变量 也 可 以 对 应 于 离散 型 变量 。 有 时 候 ， 映 射 给 x 
的 变量 虽然 被 存储 为 数值 型 变量 ， 但 被 看 作 分 类 变量 来 处 理 。 本 例 中 ，dose 变量 有 三 
个 取 值 : 0.5、1.0 和 2。 或 许 你 更 想 将 其 当 作 分 类 变量 而 不 是 连续 型 变量 来 处 理 ， 那 么 
运行 factor () 函数 将 其 转化 为 因子 (如 图 4-7 所 示 )。 


ggplot (tg, aes (x=factor (dose), y=length, colour=supp, group=supp)) + geom line() 
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图 4-7 ”将 连续 型 变量 转化 为 因子 型 变量 后 绘制 的 折线 图 


注意 ， 不 可 缺少 group=supp 语句 ， 否 则 ，ggplot () 会 不 知 如 何 将 数据 组 合 在 一 起 
绘制 折线 图 ， 从 而 会 报错 : 


ggplot (tg, aes (x=factor (dose), y=length, colour=supp)) + geom line() 


geom path: Each group consists of only one observation. Do you need to adjust 
the group aesthetic? 


当 分 组 不 正确 时 会 遇见 的 另 一 种 问题 是 ， 折 线 图 会 变 成 锯齿 状 ， 如 图 4-8 所 示 。 


ggplot (tg, aes (x=dose, y=length)) + geom line() 











i 1 
0.5 1.0 1.5 2.0 








图 4-8 ”不 正确 分 组 导致 的 锯齿 状 折线 图 


导致 这 种 情况 的 原因 在 于 x 在 每 个 位 置 都 对 应 于 多 个 点 ，ggplot () 误 以 为 这 些 点 属于 


折线 图 47 


同一 组 数据 而 将 其 用 一 根 折线 相连 ， 结 果 形 成 了 锯齿 状 折线 图 。 如 果 将 任意 离散 型 变 
量 映射 给 colour 或 者 linetype，ggplot () 会 以 其 为 分 组 变量 对 数据 进行 分 组 。 如 果 
你 想 借 助 其 他 变量 对 数据 进行 分 组 (未 映射 给 图 形 属性 ) 则 需 使 用 group。 


| 


4S |。 指定 分 组 变量 。 
一 瞩 ” 数 据 进行 分 组 。 
如 果 折线 图 上 有 数据 标记 ， 


和 fill 等 ( 见 图 4-9)。 


ggplot (tg, aes (x=dose, 
geom point (size=) 


ggplot (tg, aes (x=dose, 


有 疑问 时 ， 或 者 如 果 你 的 折线 图 看 起 来 不 太 合理 ， 可 以 试 着 用 group 明确 


这 种 问题 十 分 常见 ， 因 为 ggplot () 不 知道 如 何 对 折线 图 
你 也 可 以 将 分 组 变量 映射 给 数据 标记 的 属性 ， 诸 如 shape 
y=length, shape=supp)) + geom line() + 


# 更 大 的 点 


y=length, fill=supp)) + geom line() + 





geom point (size= ，shape=” ) # 使 用 有 填充 色 的 点 

25 25 

20 20 
三 supp 三 supp 
二 0OJ @oJ 
5 15 和 全 VC 了 15 @vc 

10 10 

0.5 1.0 1.5 2.0 0.5 1.0 1.5 2.0 
dose dose 











图 4-9 。 左 图 : 对 应 于 不 同 点 形 的 折线 图 








右 图 : 对 应 于 不 同 颜色 的 折线 图 


有 时 ， 数 据 标记 会 相互 重合 。 我 们 需要 令 其 彼此 错开 。 这 意味 着 要 将 它们 的 位 置 左 移 
或 者 右 移 〈 见 图 4-10)。 同 时 ， 需 要 相应 地 左 移 或 者 右 移 连接 线 以 避免 点 线 偏离 。 在 
这 一 过 程 中 ， 必 须 指 定数 据 标 记 的 移动 距离 。 


ggplot (tg, aes (x=dose, y=length, shape=supp)) + 





geom line(position=position dodge (7 ,-)) + # 将 连接 线 左 右 移动 0 .2 
geom point (position=position dodge('. )，size=i)  ”# 将 点 的 位 置 左右 移动 0.2 
25- 
_20- sp 
马 ®@OJ 
全 15- 全 vc 
10- 
05 10 | 2.0 
dose 











4-10 ”使 数据 标记 点 彼此 错开 以 避免 重合 
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4.4 修改 线条 样式 


问题 

如 何 修改 折线 图 的 线条 样式 ? 

方法 

通过 设置 线 型 (1inetype)、 线 宽 (size) 和 颜色 〈colour) 参数 可 以 分 别 修改 折线 
的 线 型 、 线 宽 和 颜色 。 

通过 将 这 些 参数 的 值 传递 给 geom_line () 函数 可 以 设置 折线 图 的 对 应 属性 ， 如 图 4-11 所 示 。 


ggplot (BOD，aes (x=Time, y=demand))+ 





geom line (linetype="dashed", size=1l, colour="blue") 
20.0 - - 
% ba 
17.5- Le : 一 广 
7 人 
5 15.0- 1 
‘ 
中 
12.5 - 
于 / 
谍 Ed 
10.0 
pe 
1 1 
2 4 6 
Time 











图 4-11” 自 定义 线 型 、 宽 度 和 颜色 的 折线 图 


对 于 多 重 折 线 图 而 言 ， 设 定 图 形 属性 会 对 图 上 的 所 有 折线 产生 影响 。 而 将 变量 映射 
给 图 形 属性 则 会 使 图 上 的 折线 具有 不 同 的 外 观 ， 参 见 4.3 节 。 折 线 图 的 默认 颜色 并 不 
是 很 吸引 眼球 ， 所 以 ， 我 们 可 能 希望 使 用 其 他 调 色 板 为 图 形 着 色 ， 可 以 调用 scale _ 
colour brewer() 和 scale_colour manual () 函数 完成 上 述 操作 ， 如 图 4-12 所 示 。 

# 加 载 plyr 包 ， 便 于 调用 ddply() 另 数 创建 例子 所 需 的 数据 集 

library (plyr) 

# 对 ToothGrowth 数据 集 进 行 汇总 

tg <- ddply (ToothGrowth, c("supp","dose"), summarise, length=mean (len)) 


ggplot (tg, aes (x=dose, y=length, colour=supp)) + 
geom line() + 
scale colour brewer (palette=" erl") 


讨论 
在 aes() 函数 外 部 设 定 颜色 (colour) 会 将 所 有 折线 设 定 为 同样 的 颜色 。 其 他 图 形 属 
性 诸如 线 宽 (size)、 线 型 (linetype) 和 点 形 (shape) 与 此 类 似 ， 如 图 4-13 所 示 。 


折线 图 49 


操作 过 程 中 可 能 需要 指定 分 组 变量 。 








25 - 
20 - 
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ea] 一 OU 
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4-12 ”调用 RColorBrewer 中 的 调 色 板 


# 如 果 两 条 折线 的 图 形 属性 相同 ， 需 要 指定 一 个 分 组 变量 
ggplot (tg, aes (x=dose, y=length, group=supp)) + 
geom line(colour="darkgreen", size=]l 


# 因为 变量 supp 被 映射 给 了 频 色 (colour) 属性 ， 所 以 ， 它 自动 作为 分 组 变量 
ggplot (tg, aes (x=dose, y=length, colour=supp)) + 

geom line(linetype="dashed") + 

geom point (shape=22, size=3, fill="white") 








25 - 25 中 
20- 20- ~ 
于 _ supp 
? TH ee 
15- 15- PF : VC 
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dose dose 














4-13” 左 图 : 单一 颜色 和 宽度 的 折线 图 右 图 : 将 变量 supp 映射 给 colour 并 添加 数据 标记 
的 折线 图 


为 见 
更 多 关于 使 用 颜色 的 内 容 可 参见 第 12 章 。 


4.5 修改 数据 标记 样式 


问题 
如 何 修改 数据 标记 的 样式 ? 
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方法 
在 函数 aes () 外 部 设 定 函 数 geom point () 的 大 小 〈size)、 颜 色 (colour) 和 填充 色 
(fill) 即 可 ， 如 图 4-14 所 示 。 


ggplot (BOD, aes (x=Time, y=demand)) + 
geom line() + 
geom point (size=4, shape=22, colour="darkred", fill="pink" 
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图 4-14 ” 自 定 义 数据 标记 大 小 、 形 状 、 颜 色 和 填充 色 的 折线 图 

讨论 

数据 标记 默认 的 形状 (shape) 是 实 线 圆圈 ， 默 认 的 大 小 (size) 是 2， 默 认 的 颜色 
(colour) 是 黑色 (black)。 填 充 色 (fi11) 属性 只 适用 于 某 些 (标号 21-25) 具有 独 
立 边框 线 和 填充 颜色 的 点 形 (参见 5.3 节 中 的 点 形 列 表 )。fi11 一 般 取 空 值 或 者 NA。 
将 填充 色 设 定 为 白色 可 以 得 到 一 个 空心 圆 ， 如 图 4-15 所 示 。 


ggplot (BOD，aes (x=Time, y=demand)) + 
geom line() + 
geom point (size=4, shape=21, fill="white") 
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图 4-15 ”填充 色 为 白色 的 数据 标记 
如 果 要 将 数据 标记 和 折线 设 定 为 不 同 的 颜色 ， 我 们 必须 在 折线 绘制 完毕 后 再 行 设 定数 
据 标 记 的 颜色 ， 此 时 ， 数 据 标记 被 绘制 在 更 上 面 的 图 层 ， 从 而 ， 避 免 被 折线 遮盖 。 


折线 图 51 


从 43 节 可 知 ， 通 过 在 aes () 函数 内 部 将 分 组 变量 映射 给 数据 标记 的 图 形 属性 可 以 将 多 条 折线 
设 定 为 不 同 的 颜色 。 数 据 标 记 的 默认 颜色 并 不 吸引 眼球 ， 因 而 ， 你 可 能 想 要 调用 别 的 调 色 板 ， 
scale colour brewer () 函数 和 scale_colour manual () 函数 可 以 完成 上 述 操作 。 在 aes () 函 
数 外 部 设 定 shape 和 size 可 以 将 数据 标记 设 定 为 统一 的 形状 和 颜色 ， 如 图 4-16 所 示 。 


# 载 入 pLYLr 包 ， 以 使 用 ddply() 函数 创建 例子 所 需 数据 集 

library (plyr) 

# 对 ToothGrowth 数据 集 进行 汇总 

tg <- ddply (ToothGrowth, cl("supp", "dose"), summarise, length=mean (len)) 


# 保存 错开 (dodge) 设置 ， 接 下 来 会 多 次 用 到 
pd <- Position dodge( ) 


ggplot (tg, aes (x=dose, y=length, fill=supp)) + 
geom line (Position=pd) + 
geom point (shape=:|, size=’?, position=pd) + 
scale fill manual (values=c ("black", "white")) 





supp 
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dose 








4-16 ”将 填充 色 手 动 设 定 为 黑白 两 色 ， 并 轻微 调整 数据 标记 的 位 置 
另 见 

更 多 关于 使 用 点 形 的 内 容 可 以 参见 53 节 ， 更 多 关于 使 用 颜色 的 内 容 可 参见 本 书 第 12 章 。 
4.6 绘制 面积 


问题 

如 何 绘制 面积 图 ? 

方法 

运行 geom area() 函数 即 可 绘制 面积 图 ， 如 图 4-17 所 示 。 


# 将 sunspot.year 数据 集 转 化 为 数据 框 ， 便 于 本 例 使 用 
sunspotyear <- data.frame 
Year = as.numeric (time (sunspot.year)), 
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Sunspots = as.numeric(Sunspot.year) 
) 


ggplot (sunspotyear, aes (x=Year, y=Sunspots)) + geom _ area() 


时 150 
8oo- 
只 50- 


1700 1800 








Year 





图 4-17 面积 图 

讨论 

默认 情况 下 ， 面 积 图 的 填充 色 为 黑 灰 色 且 没有 边框 线 ， 通 过 设 定 填 充 色 (fi11) 可 
以 修改 面积 图 的 填充 色 。 接 下 来 的 例子 中 ， 我 们 将 填充 色 设 定 为 蓝 色 ， 并 通过 设 定 
alpha=0.2 将 面积 图 的 透明 度 设 定 为 80%， 此 时 ， 我 们 可 以 看 到 面积 图 的 网 格 线 ， 如 
图 4-18 所 示 。 通 过 设置 颜色 (colour) 可 以 为 面积 图 添加 边框 线 : 


ggplot (sunspotyear, aes (x=Year, y=Sunspots)) + 
geom area (colour=" ss" ", alpha=.-) 
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4-18 ” 带 半 透 明 阴影 区 域 和 边框 线 的 面积 图 
给 整个 面积 图 添加 边框 线 之 后 的 效果 可 能 并 不 十 分 令 人 满意 ， 因 为 此 时 系统 会 在 面积 
图 的 起 点 和 终点 位 置 分 别 给 会 制 一 套 垂 直线 ， 且 在 底部 绘制 了 一 条 横 线 。 为 了 修正 上 述 
情况 ， 可 以 先 绘制 不 带 边 框 线 的 面积 图 (不 设 定 colour)， 然后， 添加 新 图 层 ， 并 用 
geom_ line() 函数 绘制 轨迹 线 ， 如 图 4-19 所 示 。 
ggplot (sunspotyear, aes (x=Year, y=Sunspots)) + 
geom area (fill=" ", alpha=. ) + 
geom line() 
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4-19 ”调用 geom_line () 函数 绘制 覆盖 顶部 的 面积 图 


折线 图 53 





另 见 


更 多 关于 使 用 颜色 的 内 容 可 以 参见 本 书 第 12 章 。 


4.7 ”绘制 堆积 面积 图 


问题 


如 何 绘制 堆积 面积 图 ? 


方法 


运行 geom_area() 函数 ， 并 映射 一 个 因子 型 变量 给 填充 色 (fi11) 即 可 ， 如 图 4-20 所 示 。 


library (gcookbook) # 为 了 使 用 数据 


ggplot (uspopage, aes (x=Year, y=Thousands, fill=AgeGroup)) + geom_area() 
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4-20 ”堆积 面积 图 


讨论 


堆积 面积 图 对 应 的 基础 数据 通常 为 宽 格 式 (wide format)， 但 ggplot2 要 求 数据 必须 是 
长 格式 (long format)， 在 两 种 格式 之 间 进 行 转换 的 内 容 可 参见 15.19 节 。 


下 面 以 uspopage 数据 集 为 例 : 


uspopage 


Year AgeGroup Thousands 


1900 
1900 
1900 
1900 
1900 
1900 
1900 


<5 
5-14 
15-24 
25-34 
35-44 
45-54 
55-64 
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9181 
16966 
14951 
12161 

9273 

6437 

4026 


1900 >64 3099 
1901 <5 9336 
1901 5-14 17158 


默认 情况 下 图 例 的 堆积 顺序 与 面积 图 的 堆积 顺序 是 相反 的 。 通 过 设 定 标 度 中 的 切 分 
(breaks) 参数 可 以 翻转 堆积 顺序 。 图 4-21 中 的 堆积 面积 图 对 图 例 的 堆积 顺序 进行 了 
反 转 ， 将 调 色 板 设 定 为 蓝 色 渐变 色 ， 并 在 各 个 区 域 之 间 添 加 细 线 (size=.2)。 同 时 我 
们 将 填充 区 域 设 定 为 半 透 明 (alpha=.4)， 这 样 可 以 透 过 填充 区 域 看 见 网 格 线 。 


ggplot (uspopage, aes (x=Year, y=Thousands, fill=AgeGroup)) + 
geom area (colour="black", size=.2, alpha=.4) + 
scale fill brewer (palette="Blues", breaks=rev(levels (uspopage$AgeGroup))) 
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图 4-21 反 转 图 例 堆积 顺序 、 带 面积 分 割 线 并 调用 其 他 调 色 板 的 堆积 面积 图 
在 aes() 函数 内 部 设 定 order=desc (AgeGroup) 可 以 对 堆积 面积 图 的 堆积 顺序 进行 反 
转 ， 如 图 4-22 所 示 。 
library (plyr) # 为 了 使 用 desc() 函数 
ggplot (uspopage, aes (x=Year, y=Thousands, fill=AgeGroup, order=desc{(AgeGroup))) + 
geom area(colour="black", size=.2, alpha=.4) + 
scale fill brewer (palette="Blues") 
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图 4-22 ” 反 转 堆积 顺序 的 堆积 面积 图 
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因为 堆积 面积 图 中 的 各 个 部 分 是 由 多 边 形 构成 的 ， 因 此 其 具有 左 、 右 边框 线 。 这 样 的 绘图 效 
果 差 强人 意 且 可 能 产生 误导 效果 。 为 了 对 此 进行 修正 〈 见 图 423)， 我 们 可 以 先 绘制 一 个 不 带 
边框 线 的 堆积 面积 图 (将 colour 设 定 为 默认 的 NA 值 )， 然 后 ， 在 其 顶部 添加 geom line(): 


ggplot (uspopage, aes (x=Year，Y=Thousands，fil1=AgeGroup，order=desc (AgeGroup))) + 








geom area (colour=NA, alpha=,.4) + 
scale fill brewer (palette="Blues") + 
geom line (position="stack", size=.2) 
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图 4-23 ”没有 左 、 右 边框 线 的 堆积 面积 图 
万 见 

更 多 关于 宽 格式 与 长 格式 相互 转换 的 内 容 ， 可 参见 15.3 节 。 
更 多 关于 重 排 因子 水 平顺 序 的 内 容 ， 可 参见 15.8 节 。 

更 多 关于 选择 图 形 颜色 的 内 容 ， 可 参见 本 书 第 12 章 。 


4.8 绘制 百分比 堆积 面积 


问题 

如 何 绘制 一 个 所 有 条 形 高 度 为 同一 常数 的 堆积 条 形 图 ? 

方法 

首先 ， 计 算 各 组 对 应 的 百分比 。 本 例 中 ， 我 们 调用 ddply() 函数 按 变 量 Year 对 
uspopage 进行 分 组 ， 然 后 计算 一 个 新 的 列 ， 命 名 为 Percent。 该 列 每 一 行 的 值 等 于 对 
应 的 Thousands 值 除 以 变量 Year 对 应 的 各 个 组 内 的 Thousands 之 和 再 乘 以 100%。 


library(gcookbook) 间 为 了 使 用 数据 
library (plyr) # 为 了 使 用 ddply() 函数 


# 将 Thousands 转化 为 Percent 
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uspopage prop <- ddply(uspopage, "Year", transform, 
Percent = Thousands / sum(Thousands) * 100) 


计算 得 出 百分比 之 后 ， 剩 余 的 绘图 步骤 与 绘制 普通 堆积 面积 图 的 步骤 一 样 ， 如 图 4.24 所 示 。 


ggplot (uspopags prop, aes (x=Year, y=Percent, fill=AgeGroup)) + 
geom area (colour="black", size=.2, alpha=.4) + 
scale fill brewer (palette="Blues", breaks=rev (levels (uspopage$AgeGroup))) 
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图 4-24 ”百分比 堆积 面积 图 


讨论 
让 我 们 更 深入 查看 上 面 的 数据 ， 并 探究 一 下 数据 的 计算 过 程 : 
uspopage 


Year AgeGroup Thousands 
1900 <5 9181 
1900 5-14 16966 
1900 15-24 14951 
1900 25-34 12161 


1900 35-44 9273 
1900 45-54 6437 
1900 55-64 4026 
1900 >64 3099 
1901 <5 9336 


1901 5-14 17158 


we. 


调用 ddply () 函数 ， 按 照 变 量 Year 将 数据 集 拆 分 为 多 个 独立 的 数据 框 ， 对 所 有 数据 
框 执行 transform() 函数 并 计算 每 个 数据 框 对 应 的 Percent。 最 后 ， 调 用 ddply() 函 
数 将 所 有 数据 框 重 组 在 一 起 : 


uspopage prop <- ddply (uspopage, “Year", transform, 
Percent = Thousands / sum(Thousands) * 100) 


Year AgeGroup Thousands Percent 
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1900 <5 9181 12.065340 
1900 5-14 16966 22.296107 
1900 15-24 14951 19.648067 
1900 25-34 12161 15.981549 


1900 35-44 9273 12.186243 

1900 45-54 6437 8.459274 

1900 55-64 4026 5.290825 

1900 >64 3099 4.072594 

1901 <5 9336 12.033409 

1901 5-14 17158 22.115385 
男 见 


更 多 关于 分 组 计算 数据 的 内 容 可 参见 15.17 节 。 


4.9 添加 置信 域 
问题 
如 何 为 折线 图 添加 置信 域 ? 
方法 
运行 geom_ribbon () ， 然 后 分 别 映射 一 个 变量 给 ymin 和 ymax。 
climate 数据 集中 的 anomaly10y 变量 表示 了 各 年 温度 相对 于 1950 一 1980 平均 水 平 变 
异 ( 以 摄氏 度 衡 量 ) 的 10 年 移动 平均 。 变 量 Uncl0y 表示 其 95% 置信 水 平 下 的 置信 区 
间 。 我 们 令 ymax 和 ymin 分 别 设 定 为 Aanomalyl0y 加 减 Uncl0y〔( 见 图 4-25): 
library (gcookbook) # 为 了 使 用 数据 
# 抓 取 climate 数据 集 的 一 个 子 集 


clim <- subset (climate, Source == "Berkeley", 


select=c ("Year", "Anomalyl0y", "Unci0y")) 
clim 


Year Anomalyl0y Uncl0y 


1800 -0.435 0.505 
1801 -0.453 0.493 
1802 -0.460 0.486 
2003 0.869 0.028 
2004 0.884 0.029 


# 将 置信 域 绘 制 为 阴影 

ggplot (clim, aes (x=Year, y=Anomalyl0y)) + 
geom ribbon (aes (ymin=Anomalyl0y-Uncl0y, ymax=Anomalyl0yt+Uncil0y),alpha= 由 
geom line() 


明 影 部 分 的 颜色 实际 上 是 黑 灰色 ,但 看 起 来 几乎 是 透明 的 。 这 是 因为 我 们 通过 设 定 
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alpha=0.2 将 阴影 部 分 的 透明 度 设 定 为 80%。 





图 4-25 ”以 阴影 区 域 表 示 置 信 域 的 折线 图 

讨论 

注意 ， 上 面 的 绘图 命令 中 geom_ribbon() 函数 的 调用 顺序 在 geom line() 函数 之 前 ， 
因而 ， 折 线 被 绘制 在 阴影 区 域 上 面 的 图 层 上 。 如 果 颠 倒 调 用 顺序 的 话 ， 阴 影 区 域 的 颜 


色 有 可 能 使 折线 模糊 不 清 。 在 本 例 中 ,似乎 这 不 成 问题 ， 这 是 因为 本 例 中 的 阴影 区 域 
几乎 是 全 透明 的 ， 但 当 阴影 区 域 部 分 不 透明 时 这 个 问题 就 很 严重 。 


除了 使 用 阴影 区 域 ， 我 们 还 可 以 使 用 虚线 来 表示 置信 域 的 上 下 边界 〈 见 图 4-26): 


# 使 用 虚线 表示 置信 域 的 上 下 边界 

ggplot (clim, aes (x=Year, y=Anomalyl0y)) + 
geom line(aes (y=Anomalyl0y-Uncl0y), colour="grey50", linetype="dotted") + 
geom line (aes (y=Anomalyl0y+Unci0y), colour="grey50", linetype="dotted") + 


geom line() 





图 4-26 ”以 虚线 表示 置信 域 的 折线 图 


另 见 
除了 表示 置信 域 之 外 ， 阴 影 区 域 还 可 以 用 来 表示 其 他 内 容 ， 比 如 两 个 变量 之 间 的 差 值 等 。 


在 4.7 节 中 的 面积 图 中 ， 阴 影 区 域 的 y 轴 范围 是 0 到 y， 而 图 4-26 中 y 轴 的 范围 是 
ymin 到 ymax。 
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散 扣 图 





散 点 图 通常 用 来 刻画 两 个 连续 型 变量 之 间 的 关系 。 绘 制 散 点 图 时 ， 数 据 集中 的 每 一 个 观 
测 值 都 由 散 点 图 中 的 一 个 点 来 表示 。 通 常 ， 人 们 还 会 向 散 点 图 中 添加 一 些 直线 ， 以 用 来 
表示 基于 茶 些 统计 模型 的 预测 值 。 当 散 点 图 中 的 数据 趋势 难以 用 肉眼 识别 时 ， 这 些 直 线 
对 我 们 理解 数据 的 特征 很 有 帮助 。 上 述 这 些 操 作 在 R 和 ggplot2 中 都 是 很 容易 做 到 的 。 


当 数 据 集 很 大 时 ， 散 点 图 上 的 数据 点 会 相互 重 又 ， 此 时 ， 很 难 在 图 上 清楚 地 显示 出 所 
有 的 数据 点 。 这 时 候 ， 我 们 可 以 先 对 数据 进行 加 工 ， 再 绘制 散 点 图 。 本 章 也 将 介绍 一 
些 加 工 数 据 的 操作 。 


5.1 绘制 基本 散 点 图 


问题 

如 何 绘制 散 点 图 ? 

方法 

运行 geom point () 函数 ， 分 别 映射 一 个 变量 到 x 和 y。 

heightweight 是 个 多 列 数据 集 ， 接 下 来 的 例子 我 们 只 用 到 其 中 两 列 〈 见 图 5-1)。 


library (gcookbook) # 为 了 使 用 数据 


# 列 出 我 们 用 到 的 列 


heightweight[, c("ageYear", "heightIn")] 


ageYear heightIn 


11:92 56.3 
12.92 62.3 
12.75 63.3 
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62.0 
59.3 


13.92 
12.58 


ggplot (heightweight, aes (x=ageYear, y=heightIn)) + geom point() 
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5-1 基本 散 点 图 


讨论 


通过 设 定点 形 (shape) 参数 可 以 在 散 点 图 中 绘制 默认 值 以 外 的 点 形 。 比 如 ， 我 们 常 


用 空心 圈 ( 点 形 21) 代替 实心 圆 (点 形 16)， 如 图 5-2 左 图 所 示 : 


ggplot (heightweight, aes (x=ageYear, y=heightIn)) + geom point (shape= 


) 
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图 5-2 ” 左 图 : 空心 圆 散 点 图 ( 即 点 形 21 ) 右 图 : 数据 点 更 小 的 的 散 点 图 


散 


点 


AR 
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大 小 (size) 参数 可 以 控制 图 中 点 的 大 小 。 系 统 默认 的 大 小 〈size) 值 等 于 2， 下 面 
我 们 将 其 设 定 为 size=1.5， 以 得 到 更 小 的 数据 点 〈 见 图 5-2 右 图 ): 
ggplot (heightweight, aes (x=ageYear, y=heightIn)) + geom point (Size= ) 
ve 在 某 些 系统 平台 上 ， 点 形 16 显示 在 屏幕 上 或 者 输出 到 PNG 等 位 图 文件 时 会 显示 
锯齿 状 边沿 。 此 时 ， 我 们 可 用 点 形 19 代替 点 形 16 对 其 进行 修正 。 虽 然 两 者 同 为 
作出?， 实 心 国 ， 但 大 多 数 时 候 ， 点 形 19 的 输出 结果 显示 得 较为 平滑 ( 见 图 5-3 )， 更 多 关 
于 抗 锯齿 (anti-aliased ) 的 内 容 可 参见 14.5 节 。 





5-3 ”点 形 16 和 点 形 19 在 某 些 位 图 设备 上 的 输出 结果 


5.2 使 用 点 形 和 颜色 属性 ， 并 基于 某 变量 对 数据 
进行 分 组 











问题 
如 何 基 于 某 个 变量 对 数据 进行 分 组 ， 并 用 形状 和 颜色 属性 来 表示 ? 


方法 
将 分 组 变量 映射 给 点 形 (shape) 和 颜色 (colour) 属性 。heightweight 是 个 多 列 数 
据 集 ， 接 下 来 的 例子 中 ， 我 们 只 用 其 中 三 列 : 


library (gcookbook) # 为 了 使 用 数据 
# 列 出 要 用 的 三 个 列 
heightweight[, c("sex", "ageYear"”, "heightIn")] 


sex ageYear heightIn 
f 11.92 56.3 
££ ‘12.92 62.3 
£f ‘12575 63.3 


m 13.92 62.0 
m 12.58 5359.3 
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通过 将 变量 sex 映射 给 colour 或 shape， 我 们 可 以 按 变量 sex 对 数据 点 进行 分 组 〈 见 
图 5-4): 


ggplot (heightweight, aes (x=ageYear, y=heightIn, colour=sex)) + geom point () 


ggplot (heightweight, aes (x=ageYear, y=heightIn, shape=sex)) + geom point{() 
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5-4” 左 图 : 按 映射 colour 的 变量 对 数据 进行 分 组 ” 右 图 : 按 映射 给 shape 的 变量 对 数据 进 
行 分 组 

讨论 

分 组 变量 必须 是 分 类 变量 ， 换 言 之 ， 它 必须 是 因子 型 或 者 字符 串 型 的 向 量 。 如 果 分 组 变 
量 以 数值 型 变量 进行 存储 ， 则 需要 将 它 转化 为 因子 型 变量 之 后 ， 才 能 以 其 作为 分 组 变量 。 
可 以 将 一 个 变量 同时 映射 给 shape 和 colour 属性 。 当 有 多 个 分 组 变量 时 ， 可 以 将 它 
们 分 别 映射 给 这 两 个 图 形 属性 。 下 面 ， 我 们 把 sex 变量 同时 映射 给 shape 和 colour 
属性 〈 见 图 5-5 左 图 ): 


ggplot (heightweight, aes (x=ageYear, y=heightIn, shape=sex, colour=sex)) + 


geom point() 
散 点 图 默认 的 点 形 和 颜色 可 能 不 是 很 吸引 人 ， 通 过 调用 scale_shape manual () 函数 
可 以 使 用 其 他 点 形 ; 调用 scale_colour brewer() 或 者 scale colour manual () 函数 
可 以 使 用 其 他 调 色 板 。 
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加 RE _ e i 入 
图 5-5” 左 图 : 将 分 组 变量 同时 映射 给 右 图 : 手动 设置 点 形 和 颜色 的 散 点 图 
系统 会 根据 分 组 变量 将 分 属 各 组 的 数据 点 设置 为 不 同 的 点 形 和 颜色 〈 见 图 5-5 右 图 ): 


ggplot (heightweight, aes (x=ageYear, y=heightIn, shape=sex, colour=sex)) + 
geom point() + 
scale_ Shape manual (values=c (1,-)) + 
scale colour brewer (palette="Setl1") 


男 见 
要 使 用 不 同 于 默认 设置 的 点 形 ， 可 参见 5.3 节 的 内 容 。 要 使 用 不 同 的 绘图 颜色 ， 可 参 
见 本 书 第 12 章 的 内 容 。 


5.3 ”使 用 不 同 于 默认 设置 的 点 形 


问题 

如 何在 散 点 图 中 使 用 不 同 于 默认 值 的 点 形 ? 

方法 

通过 指定 geom point () 函数 中 的 点 形 〈shape) 参数 可 以 设 定 散 点 图 中 所 有 数据 点 的 


点 形 ( 见 图 5-6): 
library (gcookbook) # 为 了 使 用 数据 











ggplot (heightweight, aes (x=ageYear, y=heightIn)) + geom point (Shape=3) 


如 果 已 将 分 组 变量 映射 给 shape， 则 可 以 调用 scale_shape_manual () 函数 来 修改 点 形 : 


# 使 用 路 大 且 自 定义 点 形 的 数据 点 
ggplot (heightweight, aes (x=ageYear, y=heightIn, shape=sex)) + 
geom point (size=°) + scale shape manual (values=c (i}, <)) 
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图 5-6 左 图 : 自 定 义 点 形 属性 的 散 点 图 右 图 : 将 分 组 变量 映射 给 自 定义 点 形 属性 的 散 点 图 
讨论 

图 5-7 显示 了 R 绘图 中 可 调用 的 点 形 。 其 中 一 些 点 形 只 有 边框 线 ， 一 些 只 有 实心 区 域 ， 还 有 
一 些 则 是 由 可 分 离 的 边框 线 和 具有 填充 色 的 实心 区 域 共同 组 成 (我们 也 可 以 用 字符 作 点 形 )。 
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图 5-7 R 绘图 系统 可 以 调用 的 点 形 

点 形 1-20 的 点 的 颜色 ， 包 括 实心 区 域 的 颜色 都 可 由 colour 参数 来 控制 。 对 于 点 形 
21-25 而 言 ， 边 框 线 和 实心 区 域 的 颜色 则 分 别 由 colour 和 fil1 参数 来 控制 。 

我 们 可 以 用 点 形 和 填充 色 ( 空 心 或 实心 ) 属性 分 别 表 示 两 个 不 同 的 变量 。 但 这 一 过 程 
不 太 直 接 ， 我 们 要 选择 一 个 同时 具有 colour 和 fill 属性 的 点 形 及 一 个 包括 NA 和 其 
他 颜色 的 调 色 板 (NA 会 生成 一 个 空心 的 形状 )。 下 面 以 heightweight 数据 集 为 例 ， 同 
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时 在 数据 集中 增加 一 个 用 来 标识 儿童 体重 是 否 超过 100 磅 的 列 〈 见 图 5-8): 


# 生成 一 个 数据 副本 

hw <- heightweight 

# 将 数据 按照 是 否 大 于 100 磅 分 为 两 组 

hw$weightGroup <- cut (hw$weightLb, breaks=c(-Inf, Fr Inf}y 
labels=c ("< 100", ">= ")) 


# 使 用 具有 颜色 和 填充 色 的 点 形 及 对 应 于 空 值 (NA) 和 填充 色 的 颜色 
ggplot (hw, aes (x=ageYear, y=heightIn, shape=sex, fill=weightGroup)) + 
geom point (size= ) 二 
scale shape manual (values=c(21, j) 十 
scale fill manual (values=c (NA, "black"), 
guide=guide legend (override.aes=list (shape=21))) 
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图 5-8 ”把 两 个 分 组 变量 分 别 映射 给 点 形 和 填充 色 的 散 点 图 


男 见 
更 多 关于 使 用 不 同 颜色 的 内 容 ， 可 参见 本 书 第 12 章 。 更 多 关于 将 连续 型 变量 重 编码 
为 分 组 变量 的 内 容 ， 可 参见 15.14 节 。 


5.4 将 连续 型 变量 映射 到 点 的 颜色 或 大 小 属性 上 


问题 
如 何 使 用 散 点 图 中 的 颜色 和 大 小 属性 来 刻画 第 三 个 连续 型 变量 ? 
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方法 
将 连续 型 变量 映射 到 size 或 colour 属性 上 即 可 。heigthweight 数据 集 有 很 多 列 ， 下 
面 的 例子 中 只 用 其 中 四 列 : 


library (gcookbook) # 为 了 使 用 数据 
# 列 出 要 用 四 列 
heightweight[, c("sex", "ag “he In"; "weightLb")] 


sex ageYear heightIn weightLb 
£f 11..92 56.3 85.0 
上 12.92 62.3 105.0 
£ 12.715 63.3 108.0 


13,92 62.0 107.5 
m 12.58 59:3 87.0 
5.1 节 中 的 散 点 图 刻画 了 两 个 连续 型 变量 ageYear 和 heightIn 的 关系 。 如 果 想 要 表 
示 第 三 个 连续 型 变量 WeightLbp， 必 须 将 其 映射 给 其 他 的 图 形 属性 ， 例 如 ，colour 和 
size， 如 图 5-9 所 示 。 


ggplot (heightweight, aes (x=ageYear, y=heightIn, colour=weightLb)) + geom point() 


ggplot (heightweight, aes (x=ageYear, y=heightIn, size=weightLb)) + geom point() 
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图 5-9 左 图 : 将 第 三 个 连续 型 变量 映射 给 颜色 右 图 : 将 第 三 个 连续 型 变量 映射 给 大 小 


讨论 
基本 散 点 图 通过 将 两 个 连续 型 变量 分 别 映射 给 x 轴 和 yy 轴 来 刻画 它们 之 间 的 关系 。 当 
变量 超过 两 个 时 ， 我 们 必须 将 它们 映射 到 其 他 图 形 属性 上 ， 如 数据 点 的 大 小 和 颜色 。 
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人 类 对 于 感知 空间 位 置 的 微小 变化 很 擅长 ， 因 此 ， 我 们 可 以 以 较 高 的 精度 解释 被 映射 
到 x 轴 和 yy 轴 上 的 变量 。 但 我 们 对 于 图 形 颜 色 和 大 小 的 变化 不 太 敏 锐 ， 所 以 ， 我 们 只 
能 以 较 低 的 精度 对 映射 到 这 些 属性 上 的 变量 进行 解释 。 因 此 ， 只 有 当 一 个 变量 不 需要 
高 精度 的 解释 时 ， 它 才 适 合 被 有 映射 给 图 形 的 大 小 和 颜色 属性 。 
当 将 变量 映射 给 大 小 (size) 属性 时 ， 绘 制 的 图 形 结果 常常 具有 误导 性 。 比 如 在 图 5-9 
中 ， 最 大 点 对 应 的 面积 是 最 小 点 所 对 应 面积 的 36 倍 ， 然 而 ， 前 者 对 应 的 变量 值 仅 为 
后 者 的 3.5 倍 。 如 果 点 的 大 小 正比 于 变量 值 对 于 图 形 展示 很 重要 的 话 ， 则 可 以 修改 
-下 数据 点 大 小 的 变化 范围 。 默 认 情况 下 ， 点 的 大 小 为 1 一 6 ms。 运 行 scale _ size_ 
continuous (range=c (2，5)) 可 以 将 其 修改 为 2 一 5 ms。 然 而 ， 由 于 点 的 大 小 与 点 的 
直径 或 者 面积 是 非 线性 映射 ， 所 以 ， 这 个 表示 值 依 然 不 精确 《使 点 的 面积 与 变量 值 成 
正比 的 相关 细节 ， 可 以 参见 5.12 节 的 内 容 )。 
对 于 颜色 ， 实 际 上 有 两 个 相关 的 图 形 属性 可 以 使 用 ， 即 colour 和 fi11。 对 于 大 多 数 
点 形 ， 我 们 都 是 通过 colour 属性 设 定 颜色 。 然 而 ， 点 形 21-25 除了 实心 区 域 还 有 边框 
线 ， 此 时 实心 区 域 的 颜色 由 fill 来 控制 。 当 数据 点 颜色 较 浅 时 ， 带 边框 线 的 点 形 就 
显得 非常 有 用 ， 因 为 此 时 边框 线 可 以 将 数据 点 与 背景 色 区 分 开 ， 如 图 5-10 所 示 。 本 例 
中 将 色 阶 设 定 为 由 黑 至 白 ， 同 时 增加 数据 点 的 大 小 ， 以 便于 看 出 填充 色 。 

ggplot (heightweight, aes (x=ageYear, y=heightIn, fill=weightLb)) + 


geom point (shape=:1, size= + 
scale fill gradient (low="black", high="white") 


# 使 用 guide legend() 函数 以 离散 的 图 例 代 荐 色 阶 
ggplot (heightweight, aes (x=ageYear, y=heightIin, fill=weightLb)) + 








geom point (shape=?21, size=2.5) + 
scale fill gradient (low="black", high="white", breaks=seq(70, rby=20), 
guide=guide legend()) 
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图 5-10 左 图 : 带 边 框 线 、 将 连续 型 变量 映射 给 fi11 的 散 点 图 “ 右 图 : 使 用 离散 型 的 图 例 代 
蔡 连 续 型 色 阶 
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当 我 们 把 一 个 连续 型 变量 映射 给 某 个 图 形 属性 之 后 ， 这 并 不 妨碍 我 们 同时 将 分 类 变 
量 映射 给 其 他 图 形 属性 。 图 5-11 中 ， 我 们 将 变量 weightLb 映射 给 点 size 属性 ， 同 
时 将 变量 sex 映射 给 colour 属性 。 图 形 中 有 很 多 重合 的 数据 点 ， 因 此 ， 我 们 设 定 
alpha=.5 将 数据 点 设 定 为 半 透 明 。 调 用 scale_size_area() 函数 使 数据 点 的 面积 正 
比 于 变量 值 (参见 5.12 节 )， 同 时 ， 修 改 调 色 板 使 图 形 更 吸引 眼球 : 
ggplot (heightweight, aes (x=ageYear, y=heightIn, size=weightLb, colour=sex)) + 
geom point (alpha=.5) + 
scale size area() + # 使 数据 点 面积 正比 于 变量 什 


scale colour brewer (palette="Setl1") 
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图 5-11 将 连续 型 变量 映射 给 点 大 小 ， 同 时 将 分 类 变量 映射 给 颜色 属性 


将 某 个 变量 映射 给 si ze 属性 时 ， 最 好 避免 将 其 他 变量 映射 给 shape 属性 。 因 为 不 同 
点 形 的 点 大 小 很 难 相互 比较 。 比 如 ， 大 小 为 4 的 三 角形 看 起 来 比 大 小 为 3.5 的 圆 形 更 
小 。 同 时 ， 有 些 形状 本 身 就 具有 不 同 的 大 小 : 点 形 16 和 点 形 19 都 是 圆 形 ， 但 无 论点 
大 小 设 定 为 多 少 ， 点 形 19 的 圆 总 是 比 点 形 16 的 圆 看 起 来 更 大 。 


为 见 
使 用 与 默认 设置 不 同 的 颜色 ， 可 参考 12.6 节 的 内 容 。 关 于 创建 气泡 图 的 内 容 可 参见 512 节 。 


5.5 ”人 处理 图 形 重 鞋 


问题 
散 点 图 中 有 大 量 数据 点 时 ， 如 何 避 免 它们 互相 重 登 ? 
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方法 

针对 大 数据 集 绘制 散 点 图 时 ， 图 中 各 个 数据 点 会 彼此 遮盖 ， 从 而 妨碍 我 们 准确 地 评估 
数据 的 分 布 信息 ， 这 就 是 所 谓 的 图 形 重 登 〈overplotting)。 如 果 图 形 的 重 倒 程度 较 低 ， 
我 们 可 以 通过 使 用 较 小 的 数据 点 或 者 使 用 不 会 遮盖 其 他 数据 点 的 点 形 《〈 例 如 1 号 的 空 
心 圆 ) 来 避免 数据 重 和 天。5.1 节 中 的 图 5-2 就 对 这 两 种 解决 方案 都 进行 了 演示 。 





如 果 图 形 的 重 炙 程度 较 高 ， 下 面 是 一 系列 可 行 的 解决 方案 : 

。 使 用 半 透 明 的 点 ; 

。 将 数据 分 箱 (bin)， 并 用 和 矩形 表示 (适用 于 量化 分 析 ); 

。 将 数据 分 箱 (bin)， 并 用 六 边 形 表 示 ; 

。 使 用 箱 线 图 。 

讨论 

图 5-12 中 包含 54 000 个 数据 点 ， 各 个 数据 点 重 匡 严重， 我 们 很 难看 清楚 图 中 不 同 区 
域 的 数据 点 的 相对 密度 : 


sp <- ggplot (diamonds, aes (x=carat, y=price)) 


sp + geom point() 
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图 5-12 ”54 000 个 数据 点 的 重 欧 情况 


设 定 alpha 参数 可 以 使 数据 点 半 透 明 ， 如 图 5-13 所 示 。 通 过 设 定 alpha=.1 和 和 
alpha=.01 使 数据 点 分 别 具 有 90% 和 99% 的 透明 度 : 


sp + geom point (alpha=.1) 


sp + geom point (alpha= ) 
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图 5-13 左 图 : alpha=.1 的 半 透 明 的 散 点 图 右 图 : alpha=.01 


图 中 ， 变 量 carat 的 取 值 为 整数 和 “0.5” 的 地 方 有 很 多 垂直 带 ， 这 意味 着 人 们 常 按 照 这 
些 尺 寸 切割 钻石 。 不 过 ， 由 于 图 中 数据 点 过 于 致密 ， 即 使 在 数据 点 透明 度 为 99% 的 情况 
下 ， 图 上 的 大 部 分 区 域 依然 显示 为 实心 的 黑色 ， 且 数据 点 的 分 布 情况 依然 相当 模糊 。 


对 于 大 多 数 图 形 ， 在 输出 为 矢量 (如 PDF、EPS 和 SVG ) 文件 时 比 位 图 文件 (如 TIFF 
和 PNG ) 要 小 。 然 而 ， 在 数据 点 非常 多 时 ， 输 出 的 矢量 文件 会 非常 大 且 泻 染 过 程 很 
“、 生 $$， 慢 一 这 里 的 具有 99% 透明 度 的 散 点 图 的 大 小 是 1.5 MB ! 在 这 种 情况 下 ， 高 精度 的 位 
图 文件 会 更 小 ， 且 在 电脑 屏幕 上 的 显示 速度 更 快 。 更 多 信息 可 参见 本 书 第 14 章 。 
另外 一 个 解决 方案 是 将 数据 点 分 箱 〈bin) 并 以 矩形 来 表示 ， 同 时 将 数据 点 的 密度 映射 
为 矩形 的 填充 色 ， 如 图 5-14 所 示 。 在 分 箱 绘图 情况 下， 垂直 带 几乎 看 不 见 了 。 图 5-14 
中 ， 左 下 方 的 数据 点 密度 更 大 ， 这 意味 着 大 多 数 钻 石 都 是 比较 小 且 廉 价 的 。 
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图 5-14 左 图 : 调用 stat_bin2d() 函数 对 数据 进行 分 箱 ” 右 图 : 箱 数 更 多 、 手 动 设 定数 据点 
颜色 及 图 例 的 散 点 图 
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默认 情况 下 ，stat bin 2d() 函数 分 别 在 x 轴 和 yy 轴 方 向 上 将 数据 分 割 为 30 个 组 ， 总 
计 900 个 箱子 。 在 第 二 个 版 本 中 ， 我 们 将 箱 数 设 定 为 pin=50。 

图 中 数据 点 的 默认 颜色 看 起 来 难以 区 分 ， 这 是 因为 它们 的 光度 (luminosity) 变化 不 大 。 
在 第 二 个 版 本 中 我 们 通过 scale fill gradient () 重新 设 定数 据点 的 颜色 ， 并 指定 颜 
色 的 最 小 色 阶 low 和 最 大 色 阶 high。 默 认 情 况 下 ， 图 例 中 不 包括 最 小 值 ， 这 是 因为 颜 
色 标 度 的 范围 不 是 从 0 开始 的 ， 而 是 以 各 箱 中 的 最 小 非 零 值 一 一 本 例 中 是 1 一 一 为 起 
始点 的 。 如 果 想 在 图 例 中 包括 零 值 ( 见 图 5-14 右 图 ) ， 可 以 调用 1imits 参数 手动 将 
范围 设 定 为 0 到 最 大 值 6000〈 见 图 5-14 右 图 )。 

sp + Stat_bin2d() 


SP + stat bin2d(bins=5)) + 
scale fill gradient (low="lightblue", high="red", limits=c (0, ) 


如 果 不 想 将 数据 分 箱 并 以 矩形 表示 的 话 ， 可 以 调用 stat_binhex() 函数 使 用 六 边 形 代 
替 〈 见 图 5-15)。 该 函数 的 工作 机 制 与 stat_bin2d() 类 似 。 使 用 该 函数 之 前 ， 必 须 先 
运行 install.packages ("hexbin") 命令 安装 hexbin 包 。 
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图 5-15 左 图 : 调用 stat_binhex() 函数 对 数据 进行 分 箱 ” 右 图 : 落 在 分 箱 范围 外 面 的 格子 显 
示 为 灰色 
library (hexbin) 
sp + stat binhex() + 
scale fill gradient (low="lightblue", high="red", 


limits=c (7, ) ) 


sp + stat binhex () + 


scale fill gradient (low="lightblae*, high="red", 
breaks=c( ,， ' / 有 7 ); 
limits=c (5, ) ) 
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对 于 这 两 种 方法 ， 在 手动 设置 分 箱 范围 时 ， 因 为 数据 点 太 多 或 者 太 少 ， 会 出 现 一 个 落 
在 分 箱 范围 外 的 箱子 ， 且 这 个 箱子 的 颜色 会 显示 为 灰色 ， 而 不 是 最 大 值 或 最 小 值 对 应 
的 颜色 ， 如 图 5-15 右 图 所 示 。 

当 散 点 图 的 其 中 一 个 数据 轴 或 者 两 个 数据 轴 都 对 应 于 离散 型 数据 时 ， 也 会 出 现 图 形 重 
区 的 情况 ， 如 图 5-16 所 示 。 这 时 候 ， 可 以 调用 position jitter() 函数 给 数据 点 增 
加 随机 扰动 。 默 认 情 况 下 ， 该 函数 在 每 个 方向 上 添加 的 扰动 值 为 数据 点 最 小 精度 的 
40%， 不 过 ， 也 可 以 通过 width 和 height 参数 对 该 值 进行 调整 。 


spl <- ggplot (ChickWeight, aes (x=Time, y=weight)) 
spl + geom point () 


spl + geom point (position="jitter") 
# 也 可 以 调用 geom jitter() 栈 数 ， 两 者 是 等 价 的 





spl + geom point (position=position jitter(width=.5, height=0)) 
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图 5-16 左 图 : 变量 x 为 离散 型 的 数据 集 中间: 添加 随机 扰动 ” 右 图 : 只 在 水 平方 向 添加 随 
机 扰动 


当 数 据 集 对 应 于 一 个 离散 型 数据 轴 和 一 个 连续 型 数据 轴 时 ， 箱 线 图 可 能 是 一 种 较 好 的 
展示 方式 ， 如 图 5-17 所 示 。 箱 线 图 所 表现 的 信息 与 散 点 图 略 有 不 同 ， 因 为 它 很 难 反 映 
出 离散 坐标 轴 上 每 个 位 置 的 数据 点 数量 的 信息 。 箱 线 图 的 绘制 方式 有 时 候 是 缺点 ， 但 
有 时 候 却 是 恰如其分 的 可 视 化 方法 。 

对 于 chickweights 数据 集 ， 其 对 应 的 x 轴 本 质 上 是 离散 的 ， 但 其 被 存储 为 数值 型 向 
量 ， 因 此 ，ggplot () 函数 不 知 如 何 对 该 数据 集 进行 分 组 。 如 果 不 告诉 ggplot () 函 
数 如 何 对 数据 进行 分 组 ， 会 得 到 如 图 5-17 右 图 所 示 的 结果 。 调 用 aes (group=...) 
可 以 告诉 ggplot () 如 何 对 数据 进行 分 组 。 下 面 ， 按 Time 变量 的 取 值 对 数据 进行 
分 组 : 


spl + geom boxplot (aes (group=Time)) 
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图 5-17 左 图 : 分 组 绘制 箱 线 图 右 图 : 不 设 定 分 组 变量 的 绘图 结果 


必 见 
除了 对 数据 进行 分 箱 ， 我 们 还 可 以 展示 二 维 的 密度 估计 。 具 体操 作 参 见 6.12 节 。 


5.6 添加 回归 模型 拟 合 线 


问题 

如 何 回 散 点 图 中 添加 回归 模型 拟 合 线 ? 

方法 

运行 stat_smooth () 函数 并 设 定 method=lm 即 可 向 散 点 图 中 添加 线性 回归 拟 合 线 ， 这 
将 调用 lm() 函数 对 数据 拟 合 线性 模型 。 首 先 ， 我 们 将 基本 绘图 对 象 存 储 在 对 象 sp 中 ， 
然后 ， 再 添加 更 多 的 图 形 部 件 : 


library (gcookbook) # 为 了 使 用 数据 


# 基本 绘图 对 象 
sp <- ggplot (heightweight, aes (x=ageYear, y=heightIn)) 


sp + geom point() + stat smooth (method=1m) 


默认 情况 下 ，stat_smooth () 函数 会 为 回归 拟 合 线 添加 95% 的 置信 域 ， 置 信 域 对 应 的 
置信 水 平 可 通过 设置 level 参数 来 进行 调整 。 设 定 参数 se=FALSE 时 ， 系 统 将 不 会 对 
回归 拟 合 线 添加 置信 域 ( 见 图 5-18): 

# 99$ 置信 域 

SP + geom point() + stat smooth (method=lm, level= ) 
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# 没有 置信 域 
sp + geom point() + stat smooth (method=Jm，， se=FALSE) 
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图 5-18 左上 : 带 95% 置信 域 的 线性 拟 合 线 ”左下 : 带 99% 置信 域 的 线性 拟 合 线 右上: 没 
有 置信 域 的 线性 拟 合 线 ” 右 下 : 数据 点 为 灰色 的 黑色 线性 拟 合 线 

拟 合 线 的 默认 颜色 是 蓝 色 ， 可 以 通过 设 定 colour 参数 对 其 进行 调整 。 与 其 他 直线 一 
样 ， 我 们 可 以 对 拟 合 线 的 线 型 (linetype) 和 粗细 (size) 进行 设置 。 为 了 突出 直线 ， 
可 设置 点 的 colour 以 使 数据 点 不 那么 突出 〈 见 图 5-18 右 下 图 ): 


sp + geom _ point (colour="grey60") + 
stat_ smooth (method=lm, se=FALSE, colour="black") 


讨论 
线性 模型 并 不 是 唯一 可 对 数据 进行 拟 合 的 模型 一 一 事实 上 ， 它 甚至 不 是 默认 的 模 


型 。 如 果 在 调用 stat_smooth () 函数 时 未 指定 模型 类 型 ， 那 么 ， 该 函数 会 对 数据 拟 合 
loess 曲线 (局 部 加 权 多 项 式 )， 如 图 5-19 所 示 。 下 面 两 行 命令 的 输出 结果 相同 : 
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sp + geom point (colour="grey60") + stat_Smooth () 
sp + geom point (Colour="grey60") + stat smooth (method=loess) 
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图 5-19 ”局 部 加 权 多 项 式 拟 合 线 
通过 将 参数 传递 给 stat_smooth () 函数 可 以 设 定 loess () 函数 中 的 其 他 附加 参数 。 


另 一 种 常用 的 模型 是 Logistic 回归 。Logistic 回归 对 heightweight 数据 集 不 适用 ， 但 
对 MASS 包 中 的 biopsy 数据 集 拟 合 效果 良好 。 该 数据 集 包 含 9 个 与 乳腺 癌 活 检 组 织 
关 的 指标 以 及 肿瘤 的 分 类 ， 包 括 良 性 (benign) 和 恶性 (malignant) 两 种 。 在 预 处 
理 Logistic 回归 的 数据 时 ， 我 们 必须 将 具有 两 个 水 平 penign 和 malignant 的 因子 型 变 
量 转化 为 具有 0 和 1 取 值 的 向 量 。 首 先 ， 为 变量 biopsy 创建 一 个 副本 ， 接 着 将 其 重 
编码 为 数值 型 的 变量 并 存储 在 列 classn 中 : 

library (MASS) # 为 了 使 用 数据 

b <- biopsy 

b$classn[b$class=="benign"] <- 

b$classn[b$class=="malignant"] <- 1 


b 


ID V1 V2 V3 V4 V5 V6 V7 V8 V9 class classn 


1000025 5 1 1 1 2 1 3 1 1 benign 0 
1002945 5 4 4 5 710 3 2 1 benign 0 
1015425 3 1 1 1 2 2 3 1 1 benign 0 
897471 4 8 6 4 3 4 10 6 1 malignant 1 
897471 4 8 8 5 4 5 10 4 1 malignant 1 


虽然 ， 涉 及 的 指标 很 多 ， 但 在 本 例 中 ， 我 们 只 探寻 变量 V1 肿块 厚度 ) 和 肿瘤 类 型 的 
关系 。 图 中 数据 点 重合 程度 严重 ， 因 此 ， 需 要 向 数据 点 添加 一 些 扰 动 ， 同 时 ， 将 数据 
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点 设置 为 半 透 明 (alpha=.4)、 点 形 设置 为 空心 圆 〈shape=21)， 并 使 用 略 小 的 数据 点 
(size=1.5)。 令 stat_smooth() 函数 使 用 选项 为 family=binomial 的 glm() 函数 向 散 
点 图 添加 Logistic 回归 拟 合 线 〈 见 图 5-20): 


ggplot (b，aes (x=V1, y=classn)) + 
geom point (position=position jitter (width=1.3，height=0.05)，alpha=0 ,dv 
shape=2]1, size=] ,5) + 
stat smooth (method=glm, family=binomial) 





classn 





[| 
2.5 5.0 7.5 10.0 
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如 果 散 点 图 对 应 的 数据 集 按 照 某 个 因子 型 变量 进行 了 分 组 ， 且 已 将 分 组 变量 映射 给 
colour 和 shape 属性 ， 上 述 命令 将 针对 各 个 组 分 别 绘制 模型 拟 合 线 。 首 先 ， 创 建 一 
个 基本 绘图 对 象 sps ; 然后 ， 向 其 添加 1oess 线 ; 最 后 ， 将 点 的 颜色 设 定 为 半 透 明 
(alpha=.4) 以 弱化 数据 点 的 显示 〈 见 图 5-21 )。 


sps <~ ggplot (heightweight, aes (x=ageYear, y=heightIn, colour=sex)) + 
geom point() + 
scale colour brewer (palette="Seti") 


sps + geom smooth () 


注意 ， 男 性 分 组 的 蓝 色 拟 合 线 并 没有 绘制 到 图 形 的 右边 界 。 其 中 有 两 个 原因 : 第 一 个 
原因 在 于 ， 默 认 情 况 下 stat_smooth 函数 将 预测 值 的 范围 限定 在 预测 数据 对 应 的 范围 
内 对 应 于 x 轴 ); 第 二 个 原因 在 于 ， 即 使 对 模型 进行 外 推 ，loess () 函数 也 只 能 根据 
整 组 数据 对 应 的 x 轴 的 范围 进行 预测 。 


如 果 想 基于 数据 集 对 拟 合 线 进行 外 推 ， 如 图 5-21 右 图 所 示 ， 必 须 保证 绘图 过 程 中 能 够 调用 
的 是 支持 外 推 的 模型 ， 比 如 Im() ， 并 将 选项 fullrange=TRUE 传递 给 stat smooth () 函数 : 
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sps + geom smooth (method=lm, se=FALSE, fullrange=TRUE) 
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5-21 左 图 : 针对 各 组 数据 分 别 绘制 模型 拟 合 线 ” 右 图 : 外 推 的 线性 拟 合 线 


对 于 本 例 中 的 heightweight 数据 集 而 言 ，stat_smooth () 函数 默认 的 方法 〈 不 带 外 
推 的 LOESS 方法 ) 比 外 推 的 线性 预测 更 合理 ， 因 为 人 类 的 生长 过 程 并 非 线性 的 ， 且 
人 类 也 不 会 一 直 在 生长 。 


5.7 根据 已 有 模型 向 散 点 图 添加 拟 合 线 


问题 

对 数据 集 建立 回归 模型 之 后 ， 如 何 将 模型 对 应 的 拟 合 线 添加 到 散 点 图 上 ? 

方法 

常用 的 向 散 点 图 添加 模型 拟 合 线 的 方法 是 调用 stat_smooth () 函数 ， 这 在 5.6 节 中 已 


有 所 介绍 。 然 而 ， 有 时 候 我 们 想 要 建立 自己 的 模型 ， 再 将 模型 拟 合 线 添加 到 散 点 图 
上 ， 这 样 做 可 以 使 所 用 的 模型 与 图 中 所 见 保持 一 致 。 


本 例 中 ， 我 们 使 用 lm() 函数 建立 一 个 以 ageYear 为 预测 变量 对 heightIn 进行 预测 的 
模型 。 然 后 ， 调 用 predict () 函数 计算 预测 变量 ageYear 各 取 值 所 对 应 的 heightIn 
变量 的 预测 值 : 

library (gcookbook) # 为 了 使 用 数据 


model <- lm(heightIn ~ ageYear + I(ageYear^2)，heightweight) 
model 


Call: 
lm(formula = heightIn ~ ageYear + I(ageYear’2), data = heightweight) 
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Coefficients: 
(Intercept) ageYear I (ageYear’2) 
-10.3136 8.6673 -0.2478 


# 创建 一 个 包含 变量 ageYear 的 列 ， 并 对 其 进行 插值 

xmin <- min(heightweight$ageYear) 

xmax <- max (heightweight$ageYear) 

predicted <- data.frame (ageYear=seq (xmin, xmax, length.out= )) 


# 计算 变量 heightIn 的 预测 值 
predicted$heightIn <- predict (model, predicted) 
predicted 


ageYear heightIn 
11.5800 56.82624 
11.6398 57.00047 


17.4402 65.47875 
17.5000 65.47933 


现在 ， 我 们 可 以 将 数据 点 和 模型 预测 值 一 起 绘制 在 图 形 上 〈 见 图 5-22 ): 


sp <- ggplot (heightweight, aes (x=ageYear, y=heightIn)) + 
geom point (colour="grey40") 


sp + geom line (data=predicted, size=;) 








heightin 
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5-22 ， 左 图 : 基于 lm 对 象 的 二 次 预测 曲线 ” 右 图 : 基于 线性 模型 (红线 ) 和 LOESS 模型 ( 蓝 
线 ) 的 拟 合 线 


讨论 
无 论 哪 种 模型 ， 只 要 有 对 应 的 predict () 方法 ， 则 其 都 可 用 来 绘制 拟 合 线 。 举 个 例子 : 
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lm() 函数 和 loess () 函数 对 应 的 predict () 方法 分 别 是 predict.1lm() 和 Preqdict 
loess () 等 ， 因 此 ， 这 两 个 模型 都 可 以 用 来 绘制 模型 拟 合 线 。 


应 用 下 面 定义 的 predictvals () 函数 可 以 简化 向 散 点 图 添加 模型 拟 合 线 的 过 程 。 使 用 
时 ， 只 需 向 其 传递 一 个 模型 作为 参数 ， 该 函数 就 会 自动 查询 变量 名 、 预 测 变量 范围 、 
并 返回 一 个 包含 预测 变量 和 模型 预测 值 的 数据 框 。 将 该 数据 框 传递 给 geom_line() 函 
数 即 可 绘制 我 们 在 前 面 看 到 的 模型 拟 合 线 : 


# 根据 模型 和 变量 xvar 预测 变量 yvar 

检 仅 支 持 单一 预测 灾 量 的 模型 

# xrange: X 抽 范围 ， 当 值 为 NULL 时 ， 等 于 模型 对 象 中 提取 的 x 轴 范 围 ， 当 设 定 为 包含 两 个 数字 的 
# 向 量 时 ， 两 个 数字 分 别 对 应 于 x 轴 范 围 的 上 下 限 

# sample:x 轴 上 包含 的 样本 数量 

# ...; 可 传递 给 predict () 函数 的 其 他 参数 

predictvals <- function(model, xvar, yvar, xrange=NULL, samples= En 


# 如 果 xrange 没有 输入 ， 则 从 模型 对 象 中 自动 提取 x 轴 范 围 作为 参数 
# 提取 xrange 矢 数 的 方法 视 模型 而 定 
if (is.null(xrange)) { 


if (any(class (model) $in% c("lm", glm') )) 
xrange <- range (model$model [ [xvar]]) 
else if (any(class (model) $ings "loess")) 


xrange <- range (model$x) 
} 


newdata <- data.frame(x = seq(xrange[1], xrange[2], length.out = samples)) 
names (newdata) <- xvar 
newdata[[yvar]] <- predict (model, newdata = newdata, ...) 
newdata 
} 


调用 lm() 函数 和 loess () 函数 对 数据 集 建立 线性 模型 和 LOESS 模型 ( 见 图 5-22): 


modlinear <- lm(heightIn ~ ageYear, heightweight) 


modloess <- loess (heightIn ~ ageYear, heightweight) 


针对 两 个 模型 分 别 调用 predictvals () 函数 ， 并 将 得 到 的 结果 (数据 框 ) 传 递 给 geom line (): 


lm predicted <- predictvals (modlinear, "ageYear", "heightIn") 
loess predicted <- predictvals (modloess, "ageYear", " 





让 height In") 
sp + geom line(data=lm predicted, colour="red", size=.8) + 


geom line(data=loess predicted, colour="blue", size=. 


对 于 具有 非 线性 连接 函数 的 glm 模型 ， 需 要 将 predictvals () 函数 的 参数 设 定 为 
type="response"。 这 样 做 的 原因 在 于 ， 默 认 情 况 下 该 函数 返回 的 预测 结果 是 基于 线 
性 项 的 ， 而 不 是 基于 响应 变量 (y) 的 。 

以 MASS 包 中 的 piopsy 数据 为 例 演示 一 下 上 述 过 程 。 与 5.6 节 中 一 样 ， 下 面 用 变量 
V1 来 预测 变量 class。Logistic 模型 对 应 的 值 须 是 介 于 0 到 1 之 间 的 数值 ， 这 里 变量 
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class 是 因子 型 变量 ， 因 而 ， 要 先 将 变量 class 的 取 值 转化 为 0 和 1。 


library (MASS) # 为 了 使 用 数据 


b <- biopsy 
b$classn[b$class=="benign"] Ws 
b$classn[b$class=="malignant"] <- 


下 面 ， 建 立 Logistic 回归 模型 : 


fitlogistic <- glm(classn ~ V1, b, family=binomial) 


最 后 ， 绘 制 带 扰动 和 fitlogistic 线 的 散 点 图 。 通 过 指定 RGB 颜色 值 将 直线 设 定 为 


蓝 色 ， 同 时 ， 指 定 参数 size=1 使 线条 更 宽 ( 见 图 5-23 )。 


# 获取 预测 值 
glm predicted <- predictvals (fitlogistic, "V1l", "classn", type="response") 


ggplot (b, aes (x=V1, y=classn)) + 


geom point (position=position jitter (width=.3, height=.08), alpha=0 .4, 
shape= |, size=! .5) + 
geom line(data=glm predicted, colour="#]1]7)iFE", size=i) 
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图 5-23 ”Logistic 模型 
5.8 添加 来 自 多 个 模型 的 拟 合 线 


问题 
对 数据 集 建立 了 回归 模型 之 后 ， 如 何 绘制 模型 对 应 的 拟 合 线 ? 


散 点 图 


81 


方法 
使 用 上 文 提 到 的 predictvals () 函数 和 来 自 plyr 包 的 dlply() 及 ldply() 函数 即 可 。 


根据 变量 sex 的 水 平 对 heightweight 数据 集 进行 分 组 ， 调 用 lm() 函数 对 每 组 数据 分 别 
建立 线性 模型 ， 并 将 模型 结果 存放 在 一 个 列表 内 。 随 后 ， 通 过 下 面 定义 的 make_model () 
函数 建立 模型 。 调 用 该 函数 时 ， 向 其 输入 一 个 数据 框 作为 参数 ， 该 函数 会 返回 一 个 1m 
对 象 。 也 可 以 根据 数据 集 自 定义 模型 : 


make model <- function(data) { 
lml(heightIn ~ ageYear, data) 
j 


有 了 上 面 的 函数 之 后 ， 可 以 调用 dlply () 函数 分 别针 对 数据 集 的 各 个 子 集 建立 模型 。 
在 执行 过 程 中 ， 函 数 会 根据 分 组 变量 sex 将 数据 框 切 分 为 不 同 的 子 集 ， 并 对 各 个 子 集 
执行 make .model () 函数 。 本 例 中 ，heightweight 数据 集 被 切 分 为 男性 组 和 女性 组 ， 
make_model () 函数 分 别 对 两 个 组 的 数据 建立 模型 。 调 用 dlply() 函数 将 模型 结果 输出 
到 列表 中 ， 并 返回 列表 : 


library (gcookbook) # 为 了 使 用 数据 
library (plyr) 
models <- dlply(heightweight, "sex", .fun = make model) 


# 打印 出 两 个 lm 对 象 二 和 m 组 成 的 列表 


models 
$f 


Call: 
lm(formula = heightIn ~ ageYear, data = data) 


Coefficients: 

(Intercept) ageYear 
43.963 1.209 

$m 

Call: 


lm(formula = heightIn ~ ageYear, data = data) 


Coefficients: 
(Intercept) ageYear 
30.658 2.301 


attr(,"split type") 

[1] "data.framen 

attr(, "split labels") 
SeX 
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得 到 模型 对 象 之 后 ， 配 合 使 用 1dply() 函数 和 predictvals () 函数 即 可 获取 两 个 模型 
对 应 的 预测 值 。 
predvals <- ldply(models， .fun=predictvals, xvar="ageYear”, yvar="heightIn") 
predvals ## 


sex ageYear heightIn 
E 11.58000 57.96250 
f 11.63980 58.03478 
£f 11.69960 58.10707 


m 17.38040 70.64912 
m 17.44020 70.78671 
m 17.50000 70.92430 
最 后 ， 绘 制 带 预 测 值 的 散 点 图 ( 见 图 5-24): 


ggplot (heightweight, aes (x=ageYear, y=heightIn, colour=sex)) + 
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图 5-24 ， 左 图 : 基于 两 个 独立 的 lm 对 象 的 预测 值 ， 两 个 对 象 各 自 对 应 于 数据 的 一 个 子 集 “ 右 
图 : 分 面 绘图 

讨论 

dlply() 函数 和 1dply() 函数 的 作用 是 切 分 数据 ， 对 各 个 部 分 执行 某 一 函数 ， 并 对 执 
行 结果 进行 重组 。 

在 前 面 的 代码 中 ， 每 组 数据 的 预测 值 对 应 的 x 轴 的 范围 与 每 组 数据 所 对 应 的 x 轴 的 范 
围 相同 ， 并 未 向 外 延伸 。 男 性 组 的 预测 值 终止 于 男性 组 中 年 龄 最 大 的 点 ;女性 组 的 预 
测 值 更 靠 右 ， 终 止 于 女性 组 中 年 龄 最 大 的 点 。 为 了 使 两 组 预测 线 对 应 的 x 轴 范 围 与 束 
个 数据 集 对 应 的 x 轴 范围 相同 ， 可 以 像 下 面 这 样 向 其 传递 一 个 xrange 参数 : 


predvals <- ldply(models, .fun=predictvals, xvar="ageYear", yvar="heightIn", 
xrange=range (heightweight$ageYear)) 
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接 下 来 的 绘图 操作 与 前 面 类 似 。 


ggplot (heightweight, aes (x=ageYear, y=heightIn, colour=sex)) + 
geom point() + geom line (data=predvals) 


从 图 5-25 可 以 看 到 ， 男 性 组 的 模型 拟 合 线 延 伸 到 了 女性 组 的 右边 界 。 谨 记 一 点 : 
拟 合 线 并 非 总 是 适用 的 ， 其 适用 与 否 要 视 数 据 特性 及 模型 假设 而 定 。 
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5-25 ”将 每 组 预测 值 的 x 轴 范 围 外 推 至 整个 数据 集 对 应 的 x 轴 范 围 


5.9 向 散 点 图 添加 模型 系数 


问题 
如 何 向 图 形 添加 模型 的 数值 信息 ? 


方法 


简单 的 文本 以 注释 形式 添加 到 图 形 上 面 即 可 。 下 面 的 例子 中 ， 我 们 会 建立 一 个 线性 模型 ， 


并 调用 5.7 节 中 定义 的 predictval () 函数 创建 一 条 预测 线 。 最 后 ， 向 图 形 添 加 注释 。 
library (gcookbook) 并 为 了 使 用 数据 


model <- lm(heigqhtIn ~ ageYear, heightweight) 
summary (model) 


Call: 
lm(formula = heightIn ~ ageYear, data = heightweight) 


Residuals: 
Min 10 Median 3Q Max 
-8.3517 -1.9006 0.1378 1.9071 8.3371 


Coefficients: 
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Estimate Std. Error t value Pr(>|t|) 
(Intercept) 37.4356 1.8281 20.48 <2e-16 *** 
ageYear 1.7483 0.1329 13.15 <2e-16 *** 


Signif, codes: 0 xxr 0.001 wv O.01 "xu :0.05 %." 0.,1 7 工 


Residual standard error: 2.989 on 234 degrees of freedom 
Multiple R-squared: 0.4249, Adjusted R-squared: 0.4225 
F-statistic: 172.9 on 1 and 234 DF, p-value: < 2.2e-16 


上 面 的 结果 表明 模型 的 产值 是 0.4249。 我 们 创建 一 个 图 形 ， 并 调用 annotate() 函数 
向 其 手动 添加 文本 〈 见 图 5-26): 


# 首先 ， 生 成 预测 值 


pred <- predictvals (model, "ag RE hy | 
sp <- ggplot (heightweight, aes (x=ageYear, y=heightIn)) + geom point() + 
geom line (data=pred) 


sp + annotate ("text", label="1 = : Y=52) 
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图 5-26 左 图 : 纯 文本 右 图 : 数学 公式 
如 果 不 想 使 用 纯 文 本 字符 串 当 注释 的 话 ， 可 以 通过 设置 parse=TRUE 调用 R 的 数学 表 
达 式 语法 来 输入 公式 。 

sp + annotate ("textw，1Label="r^2 == 0.42", parse = TRUE, x= 1 y= ) 
讨论 
ggplot2 中 的 文本 对 象 不 能 直接 以 表达 式 对 象 作为 输入 ， 其 参数 通常 是 一 个 字符 串 ， 接 
收 字符 串 后 ， 通 过 parse (text="a + b") 函数 将 其 转化 为 公式 。 


使 用 数学 公式 作为 注释 时 ， 必 须 使 用 正确 的 语法 才能 保证 系统 输出 一 个 合法 的 RR 表达 式 对 
象 。 把 公式 封装 在 expression () 内 部 ， 检 验 其 输出 结果 可 以 辅助 判断 R 表达 式 的 有 效 性 
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(确保 公式 两 边 没有 引号 )。 本 例 中 一 是 公式 中 表达 等 号 的 合法 字符 ， 而 = 则 是 非法 字符 。 


expression (z^2 == ) # 合法 公式 
expression(r’^2 == 0.42) 
expression(r^2 = ) # 非法 公式 


Error: Unexpected '=' in "expression(r’2 =" 
还 可 以 自动 提取 模型 对 象 的 值 并 创建 一 个 引用 这 些 值 的 公式 。 在 接 下 来 的 例子 中 ， 我 
们 创建 一 个 字符 串 ， 对 其 进行 解析 后 ， 会 返回 一 个 合法 的 公式 : 


eqn <- as.character (as.expression!( 


substitute (italic(y) == a + b * italic(x) * "," ~~ italic(r)^2 ~ "=" ~ r2, 
list(a = format(coef (model) [i], digits=3), 
b = format (coef (model) [2], digits=3), 


r2 = format (summary (model) $r.squared, digits=2) 
) ) ) ) 


eqn 
witalic(y) == \"37.4\" + \"1.75\" * italic(x) * \",\" ~ ~italic(r)^2 ~ \"=\" ~ 
0a2N™™ 
parse (text=eqn) # 解析 并 返回 一 个 表达 式 
expression (italic(y) == "37.4"™ + "1.75" * italic(x) * "," ~ ~italic(r)^2 ~ "=" ~ 
"0.42") 
有 了 字符 串 表 达 式 之 后 ， 就 可 以 将 其 添加 到 图 形 上 了 。 下 面 设置 x=Inf 和 y=-Inf 将 公式 放 
置 于 图 形 的 右 下 角 ， 同 时 对 其 位 置 进行 上 下 和 左右 调整 ， 使 其 位 于 绘图 区 域内 〈 见 图 5-27): 


sp + annotate("text"，1abel=eqn，Pparse=TRUE，Xx=Inf，yY=-Inf，hjust=1.1，vjust=-.5) 
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图 5-27 ”自动 生成 公式 的 散 点 图 
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另 见 
R 中 数学 表达 式 的 语法 可 能 需要 花 一 些 时 间 去 学 习 ， 更 多 信息 请 参见 7.2 节 。 


5.10 向 散 点 图 添加 边际 地 毯 
问题 


如 何 向 散 点 图 添加 边际 地 毯 〈Marginal rugs)? 

方法 

调用 geom rug() 函数 即 可 。 下 面 以 faithful 数据 集 为 例 〈 见 图 5-28)， 该 数据 集 包 
含 两 列 关 于 “ 老 忠 实 喷泉 ”的 信息 : 其 中 ， 一 列 是 变量 eruptions， 记 录 的 是 喷泉 每 
次 喷发 的 时 长 ， 另 一 列 是 waiting， 记 录 的 是 喷泉 在 两 次 喷发 之 间 的 时 间 间 隔 : 


ggplot (faithful, aes (x=eruptions, y=waiting)) + geom point() + geom rug() 
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图 5-28 ”添加 边际 地 秘 的 散 点 图 
讨论 
边际 地 毯 图 本 质 上 是 一 个 一 维 的 散 点 图 ， 它 可 被 用 于 展示 每 个 坐标 轴 上 数据 的 分 布 情况 。 


对 于 本 例 中 的 数据 集 ， 边 际 地 毯 传递 的 信息 量 十 分 有 限 。 因 为 变量 waiting 的 最 小 刻 
度 是 分 钟 ， 因 此 ， 图 中 相应 的 边际 地 秩 线 重合 严重 。 通 过 向 边际 地 牧 线 的 位 置 坐标 添 
加 扰动 并 设 定 size 减 小 线 宽 可 以 减轻 边际 地 牧 线 的 重合 程度 ( 见 图 5-29)。 上 述 操作 
有 助 于 看 清 数据 的 分 布 情况 : 
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ggplot (faithful, aes (x=eruptions, y=waiting)) + geom point() + 
geom rug (position="jitter", size=.2) 
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图 5-29 ”线形 更 细 、 添 加 扰动 的 边际 地 丢 


画 见 
更 多 关于 图 形 重 炙 的 内 容 ， 可 参见 5.5 节 。 


5.11 向 散 点 图 添加 标签 


问题 

如 何 向 散 点 图 添加 标签 ? 

方法 

调用 annotate () 函数 或 者 geom_text () 函数 可 以 为 一 个 或 几 个 数据 点 添加 标签 。 下 面 
以 countries 数据 集 为 例 ， 对 各 国医 疗 保健 支出 与 每 千 新 生 儿 的 婴儿 死亡 率 之 间 的 关系 
进行 可 视 化 。 为 了 便于 操作 ， 选 取 人 均 支 出 大 于 2000 美元 的 国家 的 数据 子 集 进行 分 析 : 


library (gcookbook) 间 为 了 使 用 数据 


subset (countries, Year== & healthexp> ) 
Name Code Year GDP laborrate healthexp infmortality 
Andorra AND 2009 NA NA 3089.636 3.1 
Australia AUS 2009 42130.82 65.2 3867.429 4.2 
Austria AUT 2009 45555.43 60.4 5037.311 336 
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United Kingdom GBR 2009 35163.41 62.2 3285.050 4.7 
United States USA 2009 45744.56 65.0 7410.163 6.6 
先 将 基本 散 点 图 对 象 保存 在 sp 中 ， 再 向 其 添加 其 他 元 素 。 要 手动 添加 注释 ， 可 调用 
annotate() 函数 ， 此 时 ， 需 要 指定 标签 坐标 和 标签 文本 〈 见 图 5-30 左 图 )。 可 能 要 举 
试 多 次 才能 将 注释 调整 到 合适 的 位 置 。 
sp <- ggplot (subset (countries, Year== ; & healthexp> 下 


aes (x=healthexp, y=infmortality)) + 
geom point() 








sp + annotate ("text", x= 7 Y=5.4, label="Canada") + 
annotate ("text", x= ; y=6.8, label="USA") 
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图 5-30 左 图 : 手动 设置 数据 标签 的 散 点 图 “ 右 图 : 缩小 字号 、 自 动 添加 数据 标签 的 散 点 图 


要 根据 数据 集 自 动向 散 点 图 添加 数据 标签 〈 见 图 5-30 右 图 )， 可 以 使 用 geom_text () 
函数 ， 此 时 ， 只 需 映射 一 个 因子 型 或 者 字符 串 型 的 向 量 给 标签 (1abe1) 属性 。 本 例 
中 ， 我 们 把 变量 Name 映射 给 1abel 属性 ， 同 时 为 了 避免 数据 点 过 于 拥挤 ， 我 们 使 用 
略 小 一 点 的 字号 。 默 认 的 标签 size 属性 为 5， 这 个 数值 并 不 与 字号 直接 对 应 。 


sp + geom text (aes (label=Name), size=4) 
讨论 
系统 自动 放置 注释 时 会 将 其 中 心 置 于 x 坐标 和 yy 坐标 的 位 置 。 不 过 ， 我 们 可 以 对 文本 
位 置 进行 上 下 或 者 左右 调整 ， 或 者 两 者 兼 做 。 


设 定 vjust=0 时 ， 标 签 文本 的 基线 会 与 数据 点 对 齐 ( 见 图 5-31 左 图 ); 设 定 vjust=1 
时 ， 标 签 文本 的 顶部 会 与 数据 点 对 齐 。 但 有 时 这 样 还 不 够 ， 我 们 还 可 以 通过 增加 或 者 
减少 vjust 参数 的 值 来 调 高 或 者 调 低 文本 标签 的 位 置 , 也 可 以 通过 对 y 的 映射 增加 或 
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减 小 一 个 值得 到 相同 的 效果 〈 见 图 5-31 右 图 )。 


sp + geom text (aes (label=Name), size=4, vjust=0) 


# 增加 一 些 y 的 取 什 


sp + geom text (aes (y=infmortality+.!1, label=Name), size=4, vjust=0) 








5-31 左 图 : vjust=0 的 散 点 图 右 图 : 向 y 轴 坐 标 增加 一 些 数 值 


有 时 候 ， 有 必要 根据 数据 点 的 位 置 令 注 释 左 对 齐 或 右 对 齐 。 要 左 对 齐 ， 可 设置 
hjust=0《〈 见 图 5-32 左 图 ); 要 右 对 齐 ， 可 设 定 hjust=1。 与 调整 vjust 的 情形 类 似 ， 
图 中 的 标签 会 与 数据 点 有 所 重合 。 然 而 ， 这 时 候 ， 我 们 最 好 不 要 通过 增加 或 者 减少 
hjust 的 值 对 此 进行 修正 ， 因 为 调整 hjust 的 值 时 ， 系 统 会 按照 文本 标签 长 度 的 一 定 
比例 来 移动 文本 标签 的 位 置 ， 这 时 候 ， 较 长 的 文本 标签 会 比 短文 本 标签 移动 的 位 置 更 
大 。 此 时 ， 最 好 将 hjust 设 定 为 0 或 者 1， 然 后 ， 通 过 对 x 增加 或 者 减 去 一 个 值 来 调 
整 文本 标签 的 位 置 〈 见 图 5-32 右 图 ): 


SP + geom text (aes (1abel=Name)，sSize=4，hjust=0) 
sp + geom text (aes (X=healthexp+100，1label=Name)，size=4，hjust=0) 


Ed 
如 果 绘 图 时 用 的 是 对 数 坐 标 轴 ， 要 想 将 文本 标签 移动 同样 的 位 置 ， 就 不 能 通过 增 
加 Xx 或 y 的 数值 来 实现 了 。 此 时 需要 令 x 或 者 y 乘 以 一 个 数值 才 行 。 


如 果 只 想 给 为 数 不 多 的 几 个 点 添加 标签 ， 但 希望 R 自动 设 定 标签 位 置 的 话 ， 可 以 给 数 
据 框 增加 一 个 只 包含 拟 使 用 的 标签 的 新 列 。 一 个 可 行 方案 是 : 首先 ， 将 所 用 数据 复制 
一 个 副本 ， 并 将 列 Name 复制 为 Namel: 


cdat <- subset (countries, Year==2009 & healthexp>2000) 


cdat$Namel <- cdat$Name 
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5-32 左 图 : hjust=0 的 散 点 图 右 图 : 向 x 添加 一 个 值 


接 下 来 ， 用 $in% 运算 符 找 出 绘图 时 希望 保有 的 标签 所 处 的 位 置 。 本 操作 将 返回 一 人 


风 辑 向 量 ， 该 向 量 标识 


1 了 cdat$Namel 中 哪些 元 素 出 现在 第 二 个 向 量 中 ， 


EE 


idx <- cdat$Namel $in%® 


idx 


c("Ca 


da", sland", "United Kir 


其 中 第 二 个 


[1] FALSE FALSE FALSE FALSE TRUE FALSE FALSE FALSE FALSE FALSE TRUE TRUE 
[13] FALSE TRUE TRUE FALSE TRUE TRUE FALSE FALSE FALSE FALSE FALSE FALSE 


[25] TRUE TRUE TRUE 


根据 上 面 的 逻辑 向 量 用 NA 重 写 变量 Namel 中 的 其 他 取 值 : 


cdat$Namel[!idx] <- NA 
得 到 的 结果 如 下 : 
cdat 


Name Code Year 


GDP laborrate healthexp infmortality 


Andorra AND 2009 NA NA 3089.636 3 这 

Australia AUS 2009 42130.82 65.2 3867.429 和 

Switzerland CHE 2009 63524.65 66.9 7140.729 4.1 

United Kingdom GBR 2009 35163.41 62.2 3285.050 4.7 

United States USA 2009 45744.56 65.0 7410.163 6.6 
现在 ， 可 以 绘制 图 形 了 ( 见 图 5-33)。 


地 展示 出 来 : 


ggplot (cdat, aes (x=healthexp, y=infmortality)) + 


geom point() + 


geom text (aes (x=healthexpt+ 


xlim!( ) 


label=Namel), size=4, hjust=0) 


散 点 


Namel 
<NA> 
<NA> 


Switzerland 


United Kingdom 


United States 


这 次 ， 增 大 x 轴 的 范围 使 得 文本 标签 可 以 漂亮 
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图 5-33” 选 定 标签 、 扩 展 x 轴 的 散 点 图 

如 果 一 些 个 别 的 位 置 需要 调整 ， 我 们 有 两 个 选择 : 第 一 个 选择 是 复制 x 轴 坐 标 和 yy 轴 
坐标 对 应 的 列 ， 修 改 它 们 的 数值 并 以 此 调整 文本 的 位 置 。 当 然 ， 绘 制 数 据点 所 用 的 坐 
标 必 须 是 原始 的 数值 ! 另 一 个 选择 是 把 图 形 输出 为 矢量 格式 ， 比 如 PDF 或 者 SVG ( 参 
见 14.1 节 和 14.2 节 的 内 容 )， 再 用 Illustrator 或 者 Inkscape 软件 对 其 进行 编辑 。 


男 见 


更 多 关于 控制 文本 样式 的 内 容 ， 可 参见 9.2 节 。 如 果 想 手动 编辑 PDF 或 者 SVG 文件 ， 
可 参见 14.4 节 的 内 容 。 


5.12 ”绘制 气泡 图 


问题 
如 何 绘制 气泡 图 ， 并 令 点 的 面积 正比 于 变量 值 ? 


方法 
调用 geom point() 和 scale_size_area() 函数 即 可 绘制 气泡 图 。 下 面 以 countries 
数据 集 的 子 集 为 例 : 

library (gcookbook) # 为 了 使 用 数据 


cdat <- subset (countries, Year== & 
Name %in% c("Canada", "Ireland", "U 


eg | 
i , 





nds" 
2 7 


cdat 
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Name Code Year GDP laborrate healthexp infmortality 


1733 Canada CAN 2009 39599.04 67.8 4379.761 5.2 
4436 Iceland ISL 2009 37972.24 7 了 75 .3130.391 La 
4691 Ireland IRL 2009 49737.93 63.6 4951.845 3.4 
4946 Japan JPN 2009 39456.44 59.5 3321.466 2.4 
5864 Luxembourg LUX 2009 106252.24 55.5 8182.855 2.2 
7088 Netherlands NLD 2009 48068.35 66.1 5163.740 3.8 
7190 New Zealand NZL 2009 29352.45 68.6 2633.625 4.9 
9587 Switzerland CHE 2009 63524.65 66.9 7140.729 4.1 
10454 United Kingdom GBR 2009 35163.41 62.2 3285.050 4.7 
10505 United States USA 2009 45744.56 65.0 7410.163 6.6 


如 果 只 是 将 变量 GDP 映射 给 size 属性 ， 则 GDP 的 值 被 映射 给 了 点 的 半径 〈 见 图 5-34 
左 图 )， 这 并 不 是 我 们 想 要 的 结果 ; 此 外 ， 当 变量 值 增加 一 倍 时 ， 对 应 的 点 的 面积 会 
变 为 原来 的 四 倍 ， 因 此 ， 这 种 结果 会 对 人 们 理解 数据 产生 误导 。 我 们 更 想 将 GDP 映射 
给 点 的 面积 ， 可 以 调用 scale_size_area() 来 完成 这 一 操作 ( 见 图 5-34 右 图 ): 

p <- ggplot (cdat, aes (x=healthexp, 及 infmortality, size= GBP) + 


geom point (shape=21, colour="black", fill="cornsilk") 


# 将 GDP 映射 给 半径 (scale size_continuous 的 上 默认 值 ) 
p 


# 将 GDP 映射 给 面积 ， 得 到 一 个 路 大 的 圆 图 
P + Scale size area(max size=15) 
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图 5-34 左 图 : 把 变量 值 映射 给 半径 的 气泡 图 右 图 : 把 变量 值 映 射 给 面积 的 气泡 图 
讨论 


本 例 中 的 气泡 图 实际 上 还 是 散 点 图 但 气泡 图 也 有 其 他 用 法 。 比 如 ， 当 x 轴 和 yy 轴 丝 
为 分 类 变量 时 ， 气 泡 图 可 以 用 来 表示 网 格 点 上 的 变量 值 ， 如 图 5-35 所 示 : 
# 对 男性 组 和 女性 组 求 和 
<- HairEyeColor[, "Male"] + HairEyeColor[,,"Female"] 


# 转化 为 长 格式 (long format) 
library (reshape2) 
hec <- melt (hec, value.name="count") 


ggplot (hec, aes (x=Eye, y=Hair)) + 
geom point (aes (size=count), shape=21, colour="black";, fill="cornsilk") + 
Scale size area(max size=20, guide=FALSE) + 
geom text (aes (y=as.numeric (Hair)-sqrt (count)/22, label=count), vijust=!1, 
colour="grey60", size=4) 
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图 5-35 ”坐标 轴 对 应 于 分 类 变量 的 气泡 图 及 文本 标签 


本 例 中 ， 我 们 使 用 了 一 些小 技巧 来 将 文本 标签 置 于 圆圈 正 下 方 。 首 先 ， 设 定 vjust=1， 
将 文本 标签 顶端 与 数据 点 的 y 轴 对 应 。 接 下 来 ， 调 整 y 坐标 ， 使 其 刚好 位 于 每 个 圆 
圈 的 底部 。 这 一 过 程 涉 及 一 些 计算 : 提取 Hair 变量 的 数值 ， 并 将 其 减 去 一 个 与 变 
量 count 有 关 的 值 。 事 实 上 ， 这 需要 计算 count 变量 的 平方 根 ， 因 为 圆圈 的 半径 跟 
count 变量 的 平方 根 线性 相关 。 这 里 的 除数 是 通过 试 错 得 出 的 〈 本 例 中 等 于 22); 这 
个 值 取决 于 具体 的 数据 值 、 圆 圈 半 径 及 文本 大 小 。 


圆圈 下 面 的 文本 颜色 是 灰色 的 。 之 所 以 这 么 做 是 为 了 削弱 文本 的 突出 性 ， 避 免 影响 圆 
圈 的 展示 ， 但 同时 如 果 想 知道 圆圈 对 应 的 具体 数值 ， 文 本 也 能 够 在 图 中 观察 得 出 。 


另 见 
为 圆圈 添加 标签 的 内 容 可 参见 5.11 节 和 7.1 节 。 在 散 点 图 中 将 变量 映射 给 其 他 图 形 属 
性 的 方法 可 参见 5.4 节 。 


5.13 绘制 散 点 图 矩阵 


问题 
如 何 绘制 散 点 图 矩阵 ? 
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方法 

散 点 图 矩阵 是 一 种 对 多 个 变量 两 两 之 间 关 系 进 行 可 视 化 的 有 效 方法 。 调 用 R 基础 绘图 
系统 中 的 pairs () 函数 可 以 绘制 散 点 图 矩阵 。 

这 里 以 countries 数据 集 的 子 集 为 例 。 我 们 从 countries 数据 集中 选取 出 2009 年 的 
数据 且 只 保留 几 个 相关 列 : 


Library(gcookbook) # 为 了 使 用 数据 
c2009 <- subset (countries, Year== 本 
select=c (Name, GDP, laborrate, healthexp, infmortality)) 


c2009 
Name GDP laborrate healthexp infmortality 
Afghanistan NA 59.8 50.88597 103.2 
Albania 3772.6047 59.5 264.60406 17.2 
Algeria 4022.1989 58.5 267.94653 32.0 
Zambia 1006.3882 69.2 47.05637 71.5 
Zimbabwe 467.8534 66.8 NA 52.2 


我 们 用 第 2-5 列 数据 绘制 散 点 图 矩阵 ( 见 图 5-36) 一 一 对 变量 Name 绘图 的 意义 不 大 ， 
而 且 会 出 现 奇怪 的 结果 : 


pairs(c2009[,2:5]) 
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5-36 ” 散 点 图 矩阵 
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讨论 
此 处 ， 我 们 没有 使 用 ggplot2 是 因为 它 不 能 绘制 散 点 图 矩阵 〈 至 少 绘 制 的 效果 不 佳 )。 


上 述 绘图 过 程 中 也 可 以 使 用 自 定义 的 面板 函数 。 我 们 定义 一 个 panel .co 函数 来 展示 
变量 两 两 之 间 的 相关 系数 以 代替 默认 的 散 点 图 。 相 关系 数 较 大 的 位 置 将 对 应 于 较 大 的 
字体 。 现 在 暂时 不 需要 关心 函数 的 细节 一 一 先 把 代码 粘贴 到 R 会 话 或 者 脚本 中 : 
panel.cor <- function(x, y, digits=2, prefix="", cex.cor, ...) { 

Us <- par ("usr") 

on.exit (par (usr)) 

par(usr = e(0, 1, 0, 1)) 

r <- abs(cor(x, y, use="complete.obs")) 


txt 长 = format{e(r, 0. ), digits=digits) [i] 
txt <- paste (prefix, txt, sep="") 
if(missing(cex,.cor)) cex.cor <- 0.8/strwidth (txt) 
text ( f i txt, Cex = Cex.Gor * (1 + £) / 


} 
为 了 在 面板 的 对 角 线 上 展示 各 个 变量 的 直方 图 ， 我 们 定义 panel .hist 函数 : 
panel.hist <- function(x, i 
Vor 《= par( "usr 
on.exit (par (usr)) 
par (usr = c(usr[1:2]，0， 小 
h <- hist(x, plot = FALSE) 
breaks <- h$breaks 
nB <- length (breaks) 
y <- h$counts 
y <- y/max (y) 
rect (breaks[-nB], 7, breaks[-i], y, col="white", ...) 
} 
上 面 的 函数 都 取 自 于 pairs 函数 的 帮助 页 面 ， 为 方便 起 见 ， 也 可 以 打开 pairs 函 
数 的 帮助 页 面 ， 复 制 、 粘 贴 相 关 人 代码。 不 过 ， 我 们 对 这 一 版 本 的 panel.cot 函数 
的 最 后 一 行进 行 了 微小 的 修正 ， 以 使 得 散 点 矩阵 图 中 的 字体 差异 不 像 原 始 代码 那 


么 大 。 


定义 了 这 些 函 数 之 后 ， 我 们 可 以 调用 它们 来 绘制 散 点 图 矩阵 。 令 pairs () 函数 在 面板 
的 上 三 角 执 行 panel .cor 函数 ; 在 面板 的 对 角 线 执行 panel.hist 函数 。 


绘图 时 也 额外 增加 了 一 点 东西 : 在 面板 的 下 三 角 执 行 panel.smooth 函数 。 该 函数 将 
在 散 点 图 矩阵 的 下 三 角 绘制 散 点 图 ， 并 添加 一 个 LOWESS 平滑 曲线 ， 如 图 5-37 所 示 
(5.6 节 中 介绍 了 LOESS， 此 处 的 LOWESS 与 LOESS 略 有 不 同 ， 不 过 ， 对 于 这 种 初步 
的 探索 可 视 化 方法 而 言 ， 两 者 的 区 别 并 不 重要 ): 
pairs(c2009[,2:3], upper.panel = panel.cor， 
diag.panel = panel.hist, 
lower.panel = panel.smooth) 
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图 5-37 ”上 三 角 是 相关 系数 ， 下 三 角 是 平滑 曲线 ， 对 角 线 是 直方 图 的 散 点 图 矩阵 


也 许 ， 我 们 会 希望 用 线性 模型 代替 LOWESS 模型 ，panel.lm 函数 可 以 完成 该 操作 (与 
前 面 的 面板 函数 不 同 ， 这 里 的 函数 不 在 pairs 函数 的 帮助 页 面 中 ): 


panel.lm <- function (x, y, col = par("col")，bg = NA, pch = par("pch")， 
Cex = 1, col.smooth = "black", Ei 
points(x, y, pch = pch, col = col, bg = bg, cex = cex) 
abline (stats::lm(y ~ x), col = col.smooth, 】 


} 


这 次 ， 系 统 默 认 的 线条 颜色 不 再 是 红色 ， 而 是 黑色 。 调 用 函数 pairs () 时 (与 函数 
panel. smooth 配合 使 用 ) 设 定 col. smooth 参数 可 以 对 线条 颜色 进行 修改 。 


为 了 便于 辨认 数据 点 ， 我 们 在 图 中 使 用 更 小 一 些 的 点 〈 见 图 5-38)。 该 操作 可 以 通过 
设 定 pch="." 来 完成 : 


pairs(c2009[,2:3], pch=".", 
upper.panel = panel.cor, 
diag.panel = panel.hist, 
lower.panel = panel.1m) 


cex 参数 可 以 控制 图 中 点 的 大 小 。cex 参数 的 默认 值 是 1， 其 值 越 大 ， 相 应 的 数据 点 
也 越 大 ， 反 之 亦 然 。 如 果 参 数 ce x 小 于 0.5， 图 形 输 出 为 PDF 文件 时 可 能 无 法 很 好 地 
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图 5-38， 使 用 更 小 的 数据 点 及 线性 拟 合 线 的 散 点 图 矩阵 
更 多 


关于 创建 相关 系数 矩阵 的 内 容 ， 可 参见 13.1 节 。 
GGally 包 中 的 ggpairs () 函数 也 可 以 绘制 散 点 图 矩阵 。 
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第 6 章 


描述 数据 分 布 


本 章 将 探寻 一 些 对 数据 分 布 进行 可 视 化 的 方法 。 


6.1 绘制 简单 直方 图 
问题 


如 何 绘制 直方 图 ? 
方法 
运行 geom_histogram() 函数 并 映射 一 个 连续 型 变量 到 参数 x ( 见 图 6-1): 


ggplot (faithful, aes (x=waiting)) + geom histogram() 
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图 6-1 简单 直方 图 
讨论 
geom histogram() 函数 只 需要 数据 框 的 其 中 一 列 或 者 一 个 单独 的 数据 向 量 作为 参 


数 。 以 faithful 数据 集 为 例 ， 该 数据 集 包 含 了 两 列 描述 老 忠实 喷泉 的 信息 : 第 一 列 
eruptions， 描 述 老 忠实 喷泉 每 次 喷发 的 时 长 ;第 二 列 waiting， 描述 两 次 喷发 之 间 的 
间隔 。 下 面 仅 以 列 waiting 为 例 : 


faithful 

eruptions waiting 
3.600 79 
1.800 54 
3.333 74 


如 果 想 快速 地 看 一 下 未 包含 在 数据 框 中 的 数据 的 直方 图 ， 可 以 在 运行 上 述 命令 时 ， 将 
数据 框 参数 设 定 为 NULL， 同 时 ， 向 ggplot () 函数 传递 一 个 向 量 作 为 参数 。 下 面 的 代 
人 码 与 之 前 的 运行 结果 相同 : 

# 将 变量 值 保 存 为 一 个 基本 向 量 

W <-faithful$waiting 


ggplot (NULL, aes (x=w)) + geom histogram() 


默认 情况 下 ， 数 据 将 被 切 分 为 30 组 ， 这 样 分 组 可 能 太 过 精细 ， 也 可 能 太 过 粗糙 ， 这 取决 
于 数据 的 实际 情况 。 我 们 可 以 通过 组 距 (binwidth) 参数 来 调整 数据 的 分 组 数目 ， 或 者 将 
数据 切 分 为 指定 的 分 组 数目 。 直 方 图 默认 的 填充 色 是 黑色 且 没 有 边框 线 ， 这 使 得 我 们 难 
以 看 清 各 个 条 形 对 应 的 变量 值 ， 因 此 ， 可 以 调整 一 下 直方 图 的 颜色 设置 ， 如 图 6-2 所 示 : 

# 设 定 组 距 为 5 

ggplot (faithful, aes (x=waiting)) + 

geom histogram(binwidth=5, fill="white", colour="black") 
# 将 x 的 取 值 切 分 为 15 组 
binsize <- diff(range (faithful$waiting))/ 


ggplot (faithful, aes (x=waiting)) + 
geom histogram(binwidth=binsize, fill="white", colour="black") 
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图 6-2 左 图 : 组 距 为 5， 且 修改 填充 色 的 直方 图 右 图 : 分 组 数 为 15 的 直方 图 
有 了 时， 直方 图 的 外 观 会 非常 依赖 于 组 距 及 组 边界 。 图 6-3 中 ， 我 们 将 组 距 设 定 为 8。 
同时 设 定 分 组 原点 (origin) 参数 令 左 图 的 组 边界 分 别 位 于 31、39、47 等 ; 右 图 中 ， 
对 origin 参数 增加 4， 令 组 边界 分 别 位 于 35、43、51 等 : 

h <- ggplot (faithful, aes (x=waiting)) # 将 基本 绘图 结果 存 为 变量 以 便于 重复 使 用 
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h + geom histogram(binwidth=8, fill="white", colour="black", origin=31) 


h + geom histogram(binwidth=5， fill="white", colour="black", origin=35) 
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图 6-3 ”分 组 原点 (origin ) 对 应 于 31 和 35 时 的 直方 图 

两 图 对 应 的 分 组 数目 相同 ， 但 绘图 结果 差异 很 大 。 本 例 中 的 的 faithful 数据 集 共 包 
含 272 个 观测 值 ， 数 据 量 并 不 算 少 ; 当 数 据 量 较 小 时 ， 对 分 组 边界 的 影响 将 会 更 大 。 
因此 ， 绘 制图 形 时 ， 最 好 尝试 一 下 不 同 的 分 组 数目 和 分 组 边界 。 

当 数 据 集 包含 离散 型 数据 时 ， 直 方 图 的 非 对 称 性 不 可 和 忽视。 数据 分 组 时 ， 各 分 组 区 间 
左 闭 右 开 。 比 如 ， 当 分 组 边界 为 1!、2、3 等 时 ， 对 应 的 分 组 区 间 为 [1,2)、[2,3)、[3,4) 
等 。 换 言 之 ， 第 一 个 分 组 区 间 包 含 1， 但 不 包含 2， 第 二 个 分 组 区 间 包 含 2， 但 不 包含 3。 
运行 代码 geom bar (stat="bin") 也 能 得 到 相同 的 结果 ， 不 过 ，geom histogram() 函 
数 的 操作 过 程 更 易于 解释 。 


男 见 


绘制 多 个 数据 对 应 的 分 布 时 ， 频 数 多 边 形 (frequency polygon) 是 一 个 更 佳 的 方案 ， 
因为 ， 它 避免 了 各 个 条 形 之 间 相 互 干扰 。 相 关内 容 参见 6.5 节 。 


6.2 ”基于 分 组 数据 绘制 分 组 直方 图 


问题 
如 何 绘制 多 组 数据 的 直方 图 ? 


方法 
运行 geom_histogram() 函数 并 使 用 分 面 绘图 即 可 ， 如 图 6-4 所 示 : 
library (MASS) # 为 了 使 用 数据 
# 使 用 smoke 作为 分 面 变量 
ggplot (birthwt, aes(x=bwt)) + geom histogram(fill="white",colour="black")+ 
facet grid(smoke ~ .) 
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图 6-4 左 图 : 分 面 数目 为 2 的 直方 图 右 图 : 修改 分 面 标签 的 直方 图 


讨论 
绘制 上 图 时 ， 要 求 所 有 用 到 的 数据 都 包含 在 一 个 数据 框 里 ， 且 数据 框 其 中 一 列 是 可 用 
于 分 组 的 分 类 变量 。 
这 里 以 birthwt 数据 集 为 例 。 该 数据 集 包 含 的 是 关于 婴儿 出 生体 重 及 一 系列 导致 出 生 
体重 过 低 的 危险 因子 的 数据 : 

birthwt 


low age lwt race smoke ptl ht ui ftv bwt 
0 19 182 2 0 0 0 1 0 2523 
0 33 155 3 0 00 0 32551 
0 20 105 J 1 0 0 0 1 2557 


分 面 绘图 有 一 个 问题 ， 即 分 面 标签 只 有 0 和 1， 且 没有 指明 这 个 标签 是 变量 smoke 的 
取 值 。 想 要 修改 标签 ， 我 们 需要 修改 因子 水 平 的 名 称 。 首 先 列 出 现 有 的 因子 水 平 ， 然 
后 ， 依 照相 同 的 顺序 向 它们 赋予 新 的 名 字 : 

pirthwtl <- birthwt # 复制 一 个 数据 副本 

# 将 smoke 转化 为 因子 


birthwtl$smoke <- factor (birthwtli$smoke) 
levels (birthwtl$smoke) 


WOnw1Lw 

library (plyr) # 为 了 使 用 revalue () 函 教 

birthwtl$smoke <- revalue (birthwtl$smoke, c("0"="No Smoken，"1"="Smoken) ) 
重新 绘图 ， 图 形 中 为 新 的 分 面 标签 ( 见 图 6-4 右 图 )。 

ggplot (birthwtl, aes(x=bwt)) + geom histogram(fill="white", colour="black") + 
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facet grid(smoke ~ .) 


分 面 绘图 时 ， 各 分 面 对 应 的 y 轴 标 度 是 相同 的 。 当 各 组 数据 包含 的 样本 数目 不 同时 ， 
可 能 会 难以 比较 各 组 数据 的 分 布 形状 。 我 们 可 以 看 看 按照 race 对 出 生体 重 进行 分 组 
并 分 面 绘 图 的 结果 〈 见 图 6-5 左 图 ): 


ggplot (birthwt, aes (x=bwt)) + geom histogram(fill="white", colour="black") 十 
facet grid(race ~ .) 





12:5™= 


10.0™ 
天 号 可 
5.0”- 
2.54 









count 





' ) ' ' 1 1 1 ' ' es 
1000 2000 3000 4000 5000 1000 2000 3000 4000 5000 
bwt bwt 














图 6-5 左 图 : 坐标 轴 对 应 于 默认 固定 标 度 的 直方 图 右 图 : 令 scales="free" 的 直方 图 


设置 参数 scales="free" 可 以 单独 设 定 各 个 分 面 的 y 轴 标 度 。 注 意 : 这 种 设置 只 
适用 于 了 轴 标 度 ，x 轴 的 标 度 仍 是 固定 的 ， 因 为 各 个 分 面 的 直方 图 是 依照 x 轴 进 行 
对 齐 的 。 
ggplot (birthwt, aes (x=bwt)) + geom histogram(fill="white", colour="black") + 
facet gridl(race ~ ., scales="free") 


分 组 绘图 的 另 一 种 做 法 是 把 分 组 变量 映射 给 fi11， 如 图 6-6 所 示 。 此 处 的 分 组 变量 必 
须 是 因子 型 或 者 字符 型 的 向 量 。 对 于 birthwt 数据 集 ， 变 量 smoke 是 合适 的 分 组 变量 ， 
由 于 其 被 存储 为 数值 型 ， 所 以 ， 我 们 使 用 前 面 创建 的 birthwtl 数据 集 ， 该 数据 集中 
的 smoke 变量 是 因子 型 变量 : 

# 把 smoke 转化 为 因子 

birthwtl$smoke <- factor (birthwtl$smoke) 


# 把 smoke 映射 给 fi11， 取 消 条 形 堆 缀 ， 并 使 图 形 半 浇 明 


ggplot (birthwtl, aes (x=bwt, fi]l=smoke)) + 
geom histogram(position="identity", alpha=0.4 ) 


语句 position="identity" 很 重要 。 没 有 它 ，ggplot () 函数 会 将 直方 图 的 条 形 进行 
垂直 堆积 ， 这 样 的 话 更 难以 看 清 每 组 数据 的 分 布 信息 。 
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图 6-6 不 同 填充 色 的 多 组 直方 图 


6.3 ”绘制 密度 曲线 

问题 

如 何 绘制 核 密度 曲线 ? 

方法 

运行 geom density() 函数 ， 并 映射 一 个 连续 型 变量 到 x ( 见 图 6-7): 


ggplot (faithful, aes (x=waiting)) + geom density() 


如 果 不 想 绘 制图 形 两 侧 和 底部 的 线段 ， 可 以 使 用 geom line (stat="density") 函数 
( 见 图 6-7 右 图 ): 








# 使 用 expand_ limits () 函数 扩大 y 轴 范 围 以 包含 0 点 
ggplot (faithful, aes (x=waiting)) + geo line(stat="density") + 
expand limits (y=0) 
0.04 - 
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图 6-7 左 图 : geom_density() 函数 绘制 的 核 密度 曲线 ” 右 图 : geom_line() 函数 绘制 
的 核 密度 曲线 


讨论 
与 geom histogram() 函数 类 似 ，geom density() 函数 只 需要 数据 框 中 的 一 列 作为 参数 。 以 
faithful 数据 集 为 例 ， 该 数据 包含 了 两 列 关 于 老 忠 实 喷泉 的 数据 : 一 列 是 sruptions， 表 示 
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喷泉 喷发 的 时 长 ， 第 二 列 是 waiting， 表 示 两 次 喷发 之 间 的 时 间 间 隔 。 下 面 仅 以 waiting 列 为 例 : 


faithful 

eruptions waiting 
3.600 79 
1.800 54 
3.333 74 


上 面 提 到 的 第 二 种 方法 是 使 用 geom line() 函数 ， 并 告诉 其 使 用 density 统计 变换 。 
这 种 方法 与 第 一 种 使 用 geom density() 函数 的 方法 在 本 质 上 是 相同 的 ， 只 不 过 前 者 
绘制 的 是 封闭 的 多 边 形 。 
与 使 用 geom histogram() 函数 类 似 ， 如 果 想 快速 地 绘制 未 在 数据 框 中 的 数据 的 直方 
图 ， 可 以 在 运行 上 述 命令 时 ， 将 数据 框 设 定 为 NULL， 同 时 ， 向 ggplot () 函数 传递 一 
个 包含 所 需 数据 的 向 量 作为 参数 。 这 与 第 一 种 解决 方案 的 结果 相同 : 

# 将 变量 值 保存 在 一 个 简单 向 量 里 

w <- faithful$waiting 

ggplot (NULL, aes (x=w)) + geom density () 
核 密度 曲线 是 基于 样本 数据 对 总 体 分 布 做 出 的 一 个 估计 。 曲 线 的 光滑 程度 取决 于 核 函 
数 的 带宽 : 带宽 越 大 ， 曲 线 越 光 滑 。 带 宽 可 以 通过 adjust 参数 进行 设置 ， 其 默认 值 
为 1。 图 6-8 演示 了 当 adjust 更 大 或 者 更 小 时 图 形 的 展示 效果 : 


ggplot (faithful, aes (x=waiting)) + 





geom line(stat="density", adjust=.25, colour="red") + 
geom line(stat= y") + 
geom line(stat="density", adjust=2, colour="blue") 





; l 
50 so 70 80 90 
waiting 











6-8 adjust 分 别 为 0.25( 红线 )、 默 认 值 1 ( 黑 线 ) 和 2 ( 蓝 线 ) 的 密度 曲线 

本 例 中 ,x 轴 的 坐标 范围 是 自动 设 定 的 ， 以 使 其 能 包含 相应 的 数据 ， 但 这 会 导致 曲线 
的 边缘 被 裁剪 。 想 要 展示 曲线 的 更 多 部 分 ， 可 以 手动 设 定 x 轴 的 范围 ( 见 图 6-9)。 同 
时 ， 设 置 alpha=.2 使 填充 色 的 透明 度 为 80%。 


ggplot (faithful, aes (x=waiting)) + 
geom density (fill="blue", alpha=,2) + 
Xlim(35; ) 
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# 这 段 代码 将 使 用 geom_density() 函数 绘制 一 个 蓝 色 多 边 形 ， 并 在 顶端 添加 一 条 实 线 
ggplot (faithful, aes (x=waiting)) + 


geom density(fill="blue", colour=NA, alpha=.2) + 
geom line(stat="density") + 
xlim(35, ) 

















E ff 
50 70 90 50 70 90 
waiting waiting 
上 一 


6-9 左 图 : x 轴 范 围 更 大 、 填 充 色 为 半 透明 的 密度 曲线 右 图 : geom_density() 和 geom_ 
line () 共同 绘制 的 密度 曲线 


如 果 数 据 集 在 绘图 时 发 生 了 曲线 边缘 被 裁 前 的 情况 ， 那 可 能 是 因为 相应 的 核 密 度 曲线 
过 于 平滑 一 一 如 果 核 密度 曲线 的 宽度 超过 相应 的 数据 集 的 范围 ， 则 其 可 能 并 非 最 好 的 
模型 。 当 然 ， 也 可 能 是 因为 数据 集 太 小 了 。 


将 密度 曲线 县 加 到 直方 图 上 ， 可 以 对 观测 值 的 理论 分 布 和 实际 分 布 进行 比较 。 由 于 密度 
曲线 对 应 的 y 轴 坐标 较 小 (曲线 下 的 面积 总 是 1)， 如 果 将 其 又 加 到 未 做 任何 变换 的 直 
方 图 上 ， 曲 线 可 能 会 很 难看 清楚 。 通 过 设置 y=. .density.. 可 以 减 小 直方 图 的 标 度 以 
使 其 与 密度 曲线 的 标 度 相 匹配 。 这 里 ， 我 们 先 运行 geom_histogram() 函数 绘制 直方 图 ， 
之 后 ， 运 行 geom_density() 函数 将 密度 曲线 绘制 到 更 上 一 层 的 图 层 上 〈 见 图 6-10): 


ggplot (faithful, aes (x=waiting, y=..density..)) + 











geom histogram(fill="cornsilk", colour="grey60", size=.2) + 
geom density() + 
xlim(35, ) 
0.06 - 
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图 6-10 ”起 加 到 直方 图 上 的 密度 曲线 
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另 见 
6.9 节 介绍 了 小 提琴 图 的 相关 内 容 ， 小 提琴 图 是 另 一 种 表示 密度 曲线 的 方法 ， 其 适合 
用 来 对 多 个 分 布 进行 比较 。 


6.4 基于 分 组 数据 绘制 分 组 密度 曲线 


问题 
如 何 基于 分 组 数据 绘制 分 组 密度 曲线 ? 
方法 
使 用 geom density() 函数 ， 将 分 组 变量 映射 给 colour 或 fill 等 图 形 属性 即 可 ， 
如 图 6-11 所 示 。 分 组 变量 必须 是 因子 型 或 者 字符 串 向 量 。 数 据 集 pirthwt 对 应 的 最 佳 
分 组 变量 smoke 被 存储 为 数值 型 ， 所 以 ， 我 们 必须 先 将 其 转化 为 因子 : 

library (MASS) # 为 了 使 用 数据 

# 复制 数据 的 副本 

birthwtl <- birthwt 

# 把 变量 smoke 转化 为 因子 

birthwtl$smoke <- factor (birthwtl$smoke) 


# 把 变量 smoke 映射 给 colour 
ggplot (birthwtl, aes (x=bwt, colour=smoke)) + geom density() 


# 把 变量 smoke 映射 给 fil1l， 设置 alpha 使 填充 色 半 透明 
ggplot (birthwtl, aes (x=bwt, fill=smoke)) + geom density (alpha=.3) 
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图 6-11 左 图 : 每 组 数据 对 应 于 不 同 的 线条 颜色 ” 右 图 : 每 组 数据 对 应 于 不 同 的 半 透 明 填 充 色 
讨论 

绘制 上 图 时 ， 要 求 所 有 用 到 的 数据 都 包含 在 一 个 数据 框 里 ， 且 数据 框 的 其 中 一 列 是 可 
用 于 分 组 的 分 类 变量 。 

这 里 以 birthwt 数据 集 为 例 。 该 数据 集 包 含 的 是 关于 婴儿 出 生体 重 及 一 系列 导致 出 生 
体重 过 低 的 危险 因子 的 数据 : 
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birthwt 


low age lwt race Smoke ptl ht ui ftvy bwt 
0 19 182 2 0 0 0 1 0 2523 
0 33 155 3 0 00 0 32551 
0 0 0 12557 


0 20 105 1 1 


观察 一 下 变量 smoke (抽烟 与 否 ) 与 变量 bwt (出 生体 重 ， 单 位 是 克 ) 的 关系 。 变 量 
smoke 对 应 的 取 值 是 0 和 1， 但 由 于 其 被 存储 为 数值 型 向 量 ， 因 而 ggplot () 函数 不 知 
道 应 当 将 其 作为 分 类 变量 来 处 理 。 这 时 有 两 种 方法 可 以 选择 ， 一 是 将 数据 框 中 相应 的 
列 转 化 为 因子 ， 二 是 通过 在 aes () 函数 内 部 使 用 命令 factor (smoke) 来 告诉 ggplot () 
函数 把 smoke 当 作 因子 来 处 理 。 本 例 中 ， 我 们 将 其 转化 为 因子 。 


另 一 种 对 分 组 数据 分 布 进行 可 视 化 的 方法 是 使 用 分 面 (faceb ， 如 图 6-12 所 示 。 可 以 令 各 个 分 
面 紧 直 对 齐 或 者 水 平 对 齐 。 下 面 ， 我 们 将 各 分 面 坚 直 对 齐 来 对 分 面 中 的 两 个 分 布 进行 比较 ; 


ggplot (birthwt1，aes (X=bwt)) + geom density() + facet grid(smoke ~ .) 


4e-04- 
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图 6-12 ” 左 图 : 分 面 绘制 密度 曲线 ” 右 图 : 修改 分 面 标签 的 分 面 密度 曲线 图 
分 面 绘图 有 一 个 问题 ， 即 分 面 标签 只 有 0 和 1， 且 没有 指明 这 个 标签 是 变量 smoke 的 
取 值 。 想 要 修改 标签 ， 我 们 需要 修改 因子 水 平 的 名 称 。 首 先 列 出 现 有 的 因子 水 平 ， 然 
后 ， 依 照相 同 的 顺序 向 它们 赋予 新 的 名 字 : 

levels (birthwtl$smoke) 

nO™ wl1n 


library (plyr) # 为 了 使 用 revalue 函数 
birthwtl$smoke <- revalue (birthwti$smoke, c("0"="No Smoke", "i"="Smoke")) 


重新 绘图 ， 图 形 中 为 新 的 分 面 标签 〈《 见 图 6-12 右 图 )。 


ggplot (birthwtl, aes(x=bwt)) + geom density() + facet grid(smoke ~ .) 


如 果 要 将 直方 图 和 密度 曲线 绘制 在 一 张 图 上 ， 最 佳 方案 是 利用 分 面 ， 这 是 因为 将 两 个 
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直方 图 绘制 在 同一 张 图 上 的 其 他 方法 都 不 易于 解释 。 操 作 时 ， 需 设 定 y=. .density..， 
这 样 系统 会 将 直方 图 的 > 轴 标 度 降 到 跟 密度 曲线 相同 。 在 本 例 中 ， 通 过 修改 直方 图 颜 
色 使 直方 图 的 条 形 不 那么 突出 〈 见 图 6-13 ): 


ggplot (birthwt1，aes (x=bwt, y=..density..)) + 
geom histogram(binwidth= , fill="cornsilk", colour="grey60", sizé=,2) + 
geom density() + 
facet grid(smoke ~ .) 
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图 6-13” 埠 加 在 直方 图 上 的 密度 曲线 

6.5 ”绘制 频数 多 边 形 

问题 

如 何 绘制 频数 多 边 形 ? 

方法 

使 用 geom freqpoly() 函数 即 可 《〈 见 图 6-14 左 图 ): 


ggplot (faithful, aes (x=waiting)) + geom freqpoly() 
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图 6-14 左 图 : 频数 多 边 形 右 图 : 组 距 更 大 的 频数 多 边 形 
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讨论 
频数 多 边 形 看 起 来 跟 核 密度 估计 曲线 相似 ， 但 其 传递 的 信息 类 似 于 直方 图 。 它 跟 直 方 图 
都 描述 了 数据 本 身 的 信息 ， 而 核 密 度 曲线 只 是 一 个 估计 ， 且 需要 人 为 输入 带宽 参数 。 
与 直方 图 类 似 ， 可 以 通过 pinwidth 参数 控制 频数 多 边 形 的 组 距 〈 见 图 6-14 右 图 ) : 
ggplot (faithful, aes (x=waiting)) + geom freqpoly(binwidth=4) 
或 者 ， 通 过 直接 设 定 每 组 组 距 将 数据 的 x 轴 范 围 切 分 为 特定 数目 的 组 : 
# 将 组 数 设 定 为 15 


binsize <-diff (range (faithful$waiting))/ 
ggplot (faithful, aes (x=waiting)) + geom freqpoly (binwidth=binsize) 


另 见 
直方 图 与 频数 多 边 形 传递 的 信息 类 似 ， 只 不 过 其 以 条 形 代 替 了 直线 。 相 关内 容 可 参见 6.1 节 。 


6.6 绘制 基本 箱 线 图 


问题 

如 何 绘制 箱 线 图 〈 箱 线 胡 须 图 )? 

方法 

使 用 geom_boxplot () 函数 ， 分 别 映射 一 个 连续 型 变量 和 一 个 离散 型 变量 到 y 和 x 即 
见 图 6-15): 
library (MASS) # 为 了 使 用 数据 集 


ggplot (birthwt，aes (X=factor (race), y=bwt)) + geom boxplot() 
# 使 用 factor {) 郧 数 将 数值 型 变量 转化 为 离散 型 


-i 


1000— 











faiprirave) 





图 6-15 ” 箱 线 图 
讨论 
下 面 以 MASS 库 中 的 birthwt 数据 集 为 例 。 该 数据 集 包 含 的 是 关于 婴儿 出 生体 重 及 一 
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系列 导致 出 生体 重 过 低 的 危险 因子 的 数据 : 


birthwt 

low age lwt race smoke ptl ht ui ftv bwt 
0 19 182 2 0 0 0 1 0 2523 
0 33 155 3 0 0 0 0 32551 
0 20 105 1 1 0 0 0 1 2557 


图 6-15 中 ， 系 统 按 变量 race 将 数据 分 为 三 组 ， 我 们 对 每 组 数据 对 应 的 bwt 变量 进行 可 视 
化 。 变 量 race 对 应 的 值 为 1、2、3， 然 而 ， 由 于 其 被 存储 为 数值 型 向 量 ，ggplot () 不 知 
道 如 何 将 其 当 作 分 组 变量 来 处 理 。 为 了 使 ggplot () 能 将 其 作为 分 组 变量 来 处 理 ， 我 们 可 
以 调整 数据 框 把 变量 race 转化 为 因子 ， 或 者 通过 在 aes () 语句 内 部 使 用 factor (race) 告 
诉 ggplot () 函数 把 race 当 作 因子 来 处 理 。 在 前 面 的 例子 中 ， 用 的 是 factor (race) 。 

箱 线 图 由 箱 和 “ 须 ”(Cwhisker) 两 部 分 组 成 。 箱 的 范围 是 从 数据 的 下 四 分 位 数 到 上 四 
分 位 数 ， 也 就 是 常 说 的 四 分 位 距 (IQR)。 箱 的 中 间 有 一 条 表示 中 位 数 ， 或 者 说 50% 
分 位 数 的 线 。 须 则 是 从 箱子 的 边缘 出 发 延伸 至 1.5 倍 四 分 位 距 内 的 最 远 的 点 。 如 果 图 
中 有 超过 须 的 数据 点 ， 则 其 被 视 为 异常 值 ， 并 以 点 来 表示 。 图 6-16 使 用 偏 态 的 数据 展 
示 了 直方 图 、 密 度 曲 线 和 箱 线 图 之 间 的 关系 。 
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6-16 ” 箱 线 图 、 直 方 图 和 密度 曲线 的 对 比 图 
设 定 参数 width 可 以 修改 箱 线 图 的 宽度 〈 见 图 6-17 左 图 ): 
ggplot (birthwt，aes (X=factor (race), y=bwt)) + geom boxplot (width=.， ) 
如 果 图 中 异常 值 较 多 是 图 形 有 重合 的 话 ， 可 以 通过 设置 outlier.size 和 outlier. shape 参数 
修改 异常 点 的 大 小 和 点 形 。 异 常 点 默认 的 大 小 是 2， 点 形 是 16， 即 实心 圆 ( 见 图 6-17 右 图 ): 


ggplot (birthwt, aes (x=factor (race), y=bwt)) + 
geom boxplot (outlier.size=!.", outlier.shape= |) 


绘制 单 组 数据 的 箱 线 图 时 ， 必 须 给 x 参数 映射 一 个 特定 的 取 值 ， 否 则 ，ggplot () 函数 
不 知道 箱 线 图 对 应 的 x 轴 坐标 。 本 例 中 ， 我 们 将 其 设 定 为 1， 并 移 除 x 轴 的 刻度 标记 
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(tick marker) 和 标签 〈 见 图 6-18 ): 


ggplot (birthwt, aes(x= , y=bwt)) + geom boxplot() + 
scale x continuous (breaks=NULL)+ 
theme (axis.title.x = element blank()) 


2 
factor(race) 





图 6-17” 左 图 : 箱子 较 罕 的 箱 线 图 ” 右 图 : 用 小 号 空心 圆 表示 的 异常 点 





6-18 ” 单 组 数据 箱 线 图 


re 这 里 计算 分 位 数 的 方法 与 R base 包 中 的 boxplot () 函数 所 使 用 的 计算 方 
”法 略 有 不 同 。 当 样本 量 较 小 时 ， 这 个 差异 可 能 会 比较 明显 。 键入 ?geom_ 
一 4，poxplot () 命令 可 以 查看 这 两 种 计算 方法 的 差异 。 


6.7 ”向 箱 线 图 添加 槽 口 


问题 
如 何 向 箱 线 图 添加 槽 口 Cnotch) 以 比较 各 组 数据 的 中 位 数 是 否 有 差异 ? 
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方法 
使 用 geom boxplot () 函数 并 设 定 参数 notch=TRUE 〈 见 图 6-19): 
library (MASS) # 为 了 使 用 数据 
ggplot (birthwt, aes (x=factor (race), y=bwt)) + geom boxplot (notch=TRUE) 
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6-19 ” 带 槽 口 的 箱 线 图 

讨论 

箱 线 图 中 的 横 口 用 来 帮助 查看 不 同 分 布 的 中 位 数 是 否 有 差异 。 如 果 各 箱 线 图 的 槽 口 互 
不 重合 ， 说 明 各 中 位 数 有 差异 。 

对 于 本 数据 集 ， 你 会 看 到 如 下 信息 : 


Notch went outside hinges. Try setting notch=FALSE. 


这 表明 置信 域 〈 槽 口 ) 超过 了 某 个 箱子 的 边界 。 本 例 中 ， 中 间 箱 子 对 应 的 槽 口 的 上 边 
界 溢出 箱 体 ， 但 由 于 溢出 的 距离 较 小 ， 因 此 ， 在 最 终 的 绘图 输出 中 几乎 看 不 到 。 柄 口 
溢出 到 箱 体 的 边界 并 没有 什么 实质 错误 ， 只 是 在 一 些 极端 案例 中 会 看 起 来 很 奇怪 。 


6.8 向 箱 线 图 添加 均值 

问题 

如 何 向 箱 线 图 添加 均值 标记 ? 

方法 

使 用 stat_summary() 函数 。 箱 线 图 中 的 均值 常 以 钻石 形状 来 表示 ， 所 以 ， 下 面 用 点 形 23 

且 填 充 色 为 白色 的 点 来 表示 。 同 时 ， 通 过 设置 参数 size=3 使 用 略 大 的 点 〈 见 图 6-20): 
library (MASS) # 为 了 使 用 数据 


ggplot (birthwt, aes (x=factor (race), y=bwt)) + geom boxplot() + 
stat_ summary (fun.y="mean", geom="pointi", shape= size=>, fill="white" 
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图 6-20” 箱 线 图 上 的 均值 标记 

讨论 

箱 线 图 中 间 的 水 平 线 表示 的 是 中 位 数 ， 而 不 是 均值 。 对 于 正 态 分 布 的 数据 ， 中 位 数 与 
均值 会 比较 接近 ， 但 对 于 偏 态 的 数据 它们 将 有 所 不 同 。 


6.9 绘制 小 提琴 图 


问题 
如 何 绘制 小 提琴 图 以 对 各 组 数据 的 密度 估计 进行 比较 ? 
方法 
使 用 geom_violin() 函数 即 可 ( 见 图 6-21): 
library (gcookbook) # 为 了 使 用 数据 


# 简单 绘图 
p <-ggplot (heightweight, aes (x=sex, y=heightIn)) 


p + geom violin() 





heightin 








6-21 ”小 提琴 图 
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讨论 

小 提琴 图 是 一 种 用 来 对 多 组 数据 的 分 布 进行 比较 的 方法 。 使 用 普通 的 密度 曲线 对 多 组 
数据 进行 可 视 化 时 ， 图 中 各 曲线 会 彼此 干扰 ， 因 而 ， 不 宜 用 来 对 多 组 数据 的 分 布 进 行 
比较 。 而 小 提琴 图 是 并 排 排列 的 ， 用 它 对 多 组 数据 的 分 布 进行 比较 会 更 容易 一 些 。 


小 提琴 图 也 是 核 密度 估计 ， 但 绘图 时 对 核 密度 曲线 取 了 镜像 以 使 形状 对 称 。 传 统 画 
法 中 ， 小 提琴 图 中 间 赤 加 了 一 个 较 窗 的 箱 线 图 ， 同 时 ， 用 一 个 白 圆圈 表示 中 位 数 ， 
如 图 6-22 所 示 。 另 外 ， 通 过 设置 outlier.colour=NA 可 以 隐 去 箱 线 图 中 的 异常 点 。 


", outlier.colour=NA)+ 


P + geom violin() + geom boxplot (width=.;, fill=" 
', shape= , size= ) 


stat summary (fun.y=median, geom=" ", E111=" 





heightin 











图 6-22 ” 鞭 加 箱 线 图 的 小 提琴 图 

本 例 中 ， 我 们 从 下 而 上 逐 层 绘制 图 形 ， 先 绘制 小 提琴 图 ， 再 又 加 箱 线 图 ， 之 后 使 用 
stat _ summary() 计算 并 绘制 表示 中 位 数 的 白 圆圈 。 

小 提琴 图 默认 的 坐标 范围 是 数据 的 最 小 值 到 最 大 值 ， 其 扁平 的 尾部 在 这 两 个 位 置 处 截 
断 。 通 过 设置 trim=FALSE 可 以 保留 小 提琴 的 尾部 ( 见 图 6-23 ): 


p + geom violin (trim=FALSE) 





< 
已 
1 


heightin 
2 











图 6-23” 带 尾部 的 小 提琴 图 
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默认 情况 下 ， 系 统 会 对 小 提琴 图 进行 标准 化 以 使 得 各 组 数据 对 应 的 图 的 面积 一 样 〈 如 果 
trim=TRUE， 对 数据 进行 标准 化 时 会 包括 尾部 数据 )。 如 果 不 想 使 各 组 数据 对 应 的 图 的 
面积 一 样 ， 可 以 通过 设置 scale="count" 使 得 图 的 面积 与 每 组 观测 值 数目 成 正比 〈 见 
图 6-24)。 本 例 中 ， 女 性 组 数据 比 男性 组 数据 略 少 ， 所 以 ，f 组 的 小 提琴 图 看 起 来 略 罕 : 


# 校准 小 提琴 图 的 面积 ， 令 其 与 每 组 观测 值 的 数目 成 正比 


P + geom violin(scale="count") 





图 6-24 ”面积 大 小 正比 于 观测 数目 的 小 提琴 图 


使 用 6.3 节 中 介绍 的 adjust 参数 可 以 调整 小 提琴 图 的 平滑 程度 。 该 参数 的 默认 值 是 1; 
更 大 的 值 对 应 于 更 平滑 的 曲线 ， 反 之 亦 然 〈 见 图 6-25): 

# 更 平滑 

p + geom violin(adjust=.) 

# 秋平 滑 


P + geom violin(adjust=.5) 


heightln 





图 6-25 左 图 : 更 平滑 的 小 提琴 图 右 图 : 平滑 度 更 小 的 小 提琴 图 


另 见 
创建 传统 密度 曲线 ， 可 参考 6.3 节 的 内 容 。 使 用 不 同 于 默认 设置 的 点 形 ， 可 参考 4.5 
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节 的 内 容 。 
6.10 绘制 Wilkinson 点 图 


问题 

如 何 绘制 Wikinson 点 图 ， 以 展示 所 有 数据 点 ? 

方法 

使 用 geom dotplot () 函数 。 这 里 《〈 见 图 6-26) 以 数据 集 countries 的 子 集 为 例 : 


library(gcookbook) 间 为 了 使 用 数据 
countries2009 <- subset (countries, Year== & healthexp> ) 


p <- ggplot (countries2009, aes (x=infmortality)) 


p + geom dotplot() 





B050- 
8 


0- ®0 .于 O08 © 
1 1 
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才 
infmortality 











图 6-26 点 图 
讨论 
这 种 点 图 有 时 又 叫 Wilkinson 点 图 。 它 与 3.10 节 中 提 到 的 Cleveland 点 图 不 同 。 这 种 图 


中 ， 点 的 分 组 和 排列 取决 于 数据 ， 每 个 点 的 宽度 对 应 了 最 大 的 组 距 。 系 统 默认 的 最 大 
组 距 是 数据 范围 的 130， 我 们 可 以 通过 binwidth 参数 对 其 进行 调整 。 


默认 情况 下 ，geom dotplot () 函数 沿 着 x 轴 方 向 对 数据 进行 分 组 ， 并 在 y 轴 方向 上 对 
点 进行 堆积 。 图 中 各 点 看 起 来 是 堆积 的 ， 但 受 限于 ggplot2 的 技术 ， 图 形 上 yy 轴 的 刻 
度 线 没有 明确 的 含义 。 使 用 scale y_continuous () 函数 可 以 移 除 y 轴 标 签 。 本 例 中 ， 
我 们 还 使 用 geom_rug () 函数 以 标示 数据 点 的 具体 位 置 〈( 见 图 6-27): 


Pp + geom dotplot (binwidth= ) + geom rug() + 
scale y continuous (breaks=NULL) +  # 移 除 刻度 线 
theme (axis.title.y=element blank()) # 移 除 坐标 轴 标 签 


你 可 能 会 注意 到 数据 堆 在 水 平方 向 上 不 是 均匀 分 布 的。 根据 默认 的 dotdensity 分 组 
算法 ， 每 个 数据 堆 都 放置 在 它 表示 的 数据 点 的 中 心 位 置 。 要 使 用 像 直 方 图 那样 的 固定 
间距 的 分 组 算法 ， 可 以 令 method="histodot"。 图 6-28 中 ， 你 将 会 发 现 图 中 的 数据 堆 
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并 不 是 居中 放置 的 。 
P + geom dotplot (method= 7 binwidth= ) + geom rug() + 
scale y continuous (breaks=NULL) + theme (axis.title.y=element blank()) 





:83 2。 8 


infmortality “ 


OO- 





6-27 ” 移 除 y 轴 标 签 、 最 大 组 距 为 0.25 并 添加 边际 地 毯 以 标示 数据 点 位 置 的 点 图 








infmortality 





6-28 histodot 分 组 (固定 宽度 ) 时 的 点 图 
点 图 也 能 进行 中 心 堆 登 ， 或 者 采用 一 种 奇数 与 偶数 数量 保持 一 致 的 中 心 堆 三 方式 。 这 可 
以 通过 设置 stackdir="center" 或 者 stackdir="centerwhole" 来 完成 ， 如 图 6-29 所 示 : 


p + geom dotplot (binwidth= ,， Stackdir=' | 
scale y continuous (breaks=NULL) + theme (axis.title.y=element blank()) 





P + geom dotplot (binwidth= ) Stackdir= 小 本 
Scale y continuous (breaks=NULL) + theme (axis.title.y=element blank()) 
0.50 ~ 0.50 - 
0.25 - 0.25 - 
二 二 
§ oc 2 8 
0 。 。 
© [5 
-0,25 ~ -0.25 - 
0 1 ' 1 1 i -0.50- i i 1 
2 3 4 5 6 2 3 4 5 
infmortality infmortality 











6-29 左 图 : stackdir="center" 时 的 点 图 右 图 : stackdir="centerwhole" 时 的 点 图 
另 见 


Leland Wilkinson, “ Dot Plots,”The American Statistician 53 (1999): 276-281, http://www. 
cs.uic.edu /~wilkinson/Publications/dots.pdf. 
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6.11 基于 分 组 数据 绘制 分 组 点 图 

问题 

如 何 基于 分 组 数据 绘制 多 个 点 图 ? 

方法 

为 了 比较 多 组 数据 ， 可 以 通过 设 定 binaxis="y" 将 数据 点 沿 着 y 轴 进 行 堆 又 ， 并 沿 着 
x 轴 分 组 。 本 例 中 ， 我 们 将 以 heightWeight 数据 集 为 例 ( 见 图 6-30): 


library (gcookbook) # 为 了 使 用 数据 


ggplot (heightweight, aes (x=sex, y=heightIn)) + 





geom dotplot (binaxis="y", binwidth=.35, stackdir=" en 
6 
[0 
70 - 3 
ean 
Bo ee 
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. 3 
[0 
50 - 
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Sex 











图 6-30 沿 着 x 轴 分 组 的 多 组 数据 点 图 

讨论 

有 时 ， 我 们 会 将 点 回 晤 加 在 御 鳃 图 上 。 这 种 情况 下 ， 应 该 将 数据 点 变 为 空心 ， 同 时 隐 
去 箱 线 图 上 的 异常 点 。 这 是 因为 异常 点 将 作为 点 图 的 一 部 分 展示 出 来 〈 见 图 6-31): 


ggplot (heightweight, aes (x=sex, y=heightIn)) + 
geom boxplot (outlier.colour=NA, width=.4) + 
geom dotplot (binaxis="y", binwidth=,.5, stackdir="cent ", fill=NA) 
也 可 以 将 点 图 置 于 箱 线 图 旁边 ， 如 图 632 所 示 。 这 需要 用 到 一 些 技巧 : 通过 将 x 变量 视 作 数 
值 型 变量 并 对 其 加 减 一 个 微小 的 数值 移动 箱 线 图 和 点 图 的 位 置 ， 使 点 图 位 于 箱 线 图 的 左边 。 
当 x 变量 被 视 为 数值 型 变量 时 ， 必 须 同 时 指定 group， 否 则 ， 数 据 会 被 视 为 单独 一 组 ， 
从 而 ， 只 绘制 出 一 个 箱 线 图 和 点 图 。 最后， 由 于 x 轴 被 视 为 数值 型 ， 系 统 会 默认 展示 
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x 轴 刻 度 标签 的 数值 ， 必 须 通过 scale_x_continuous () 函数 对 其 进行 调整 ， 以 使 得 x 
轴 的 刻度 标签 显示 为 与 因子 水 平 相对 应 的 文本 : 





70- 


heightln 





50- 


SeX 





6-31 ” 替 加 在 箱 线 图 上 的 点 图 





088 和 
寺村 中 


Sex 











6-32 ”放置 于 箱 线 图 旁边 的 点 图 


ggplot (heightweight, aes (x=sex, y=heightIn)) + 


geom boxplot (aes (x=as.numeric(sex) + .2, group=sex), width= ) 示 
geom dotplot (aes (x=as.numeric(sex) -.2, group=sex), binaxis="y", 
binwidth=.5, stackdir="center") + 


scale x continuous (breaks=]:nlevels (heightweight$sex), 
labels=levels (heightweight$sex)) 


6.12 绘制 二 维 数据 的 密度 图 


问题 
如 何 绘制 二 维 (2D) 数据 的 密度 图 ? 
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方法 
使 用 stat_density2d() 函数 。 该 函数 会 给 出 一 个 基于 数据 的 二 维 核 密 度 估 计 。 首 先 ， 
我 们 绘制 数据 点 和 密度 等 高 线 图 〈( 见 图 6-33 左 图 ): 


# 基础 图 
p <- ggplot (faithful, aes (x=eruptions, y=waiting)) 


p + geom point() + stat density2d() 
也 可 以 使 用 . .1level.. 将 密度 曲面 的 高 度 映射 给 等 高 线 的 颜色 〈 见 图 6-33 右 图 ): 


# 将 height 映射 到 颜色 的 等 高 线 
p + stat density2d(aes (colour=..level..)) 











2 3 * 5 1 3 
eruptions eruplions 











图 6-33 左 图 : ”数据 点 与 密度 等 高 线 ” 右 图 : 使 用 . .level.. 将 密度 曲面 的 高 度 映 射 到 颜色 
讨论 
二 维 核 密度 估计 类 似 于 stat_density() 函数 生成 的 一 维 核 密度 估计 ， 不 过 ， 前 者 展 
示 图 形 的 方法 有 所 不 同 。 系 统 默 认 使 用 等 高 线 ， 也 可 以 使 用 瓦 片 图 (tile〉 将 密度 估计 
映射 给 填充 色 或 者 瓦 片 图 的 透明 度 ， 如 图 6-34 所 示 : 

# 将 密度 估计 映射 给 填充 色 

P + stat density2d(aes (fill=..density..), geom="raster", contour=FALSE) 

# 带 数 据点 ， 并 将 密度 估计 映射 给 alpha 的 瓦 片 图 


p + geom point () + 
stat density2d(aes (alpha=..density..), geom="tile", contour=FALSE) 


we 前 面 的 第 一 个 例子 中 我 们 使 用 了 geom="raster"， 而 第 二 个 例子 中 使 用 的 
Eyl 是 geom="tile"。 两 者 的 主要 区 别 在 于 栅 格 几何 对 象 能 够 比 瓦 片 更 有 效 地 
进行 泻 染 。 理 论 上 ， 两 者 应 该 看 起 来 一 样 ， 但 实际 中 两 者 常常 不 同 。 如 果 
输出 是 PDF 文件 ， 则 图 形 的 外 观 会 依赖 于 打开 PDF 的 浏览 器 类 型 。 在 


一 些 浏览 器 上 ， 当 使 用 瓦 片 时 ， 瓦 片 中 间 可 能 会 有 模糊 的 线 ， 而 当 使 用 
栅 格 时 ， 瓦 片 的 边沿 可 能 会 显示 模糊 (尽管 在 本 例 中 不 存在 这 个 问题 ). 
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图 6-34” 左 图 : 将 密度 估计 映射 给 填充 色 右 图 : 带 数据 点 ， 并 将 密度 估计 映射 给 alpha 的 瓦 片 图 


与 一 维 密度 估计 一 样 ， 可 以 对 估计 的 带宽 进行 控制 。 传 递 一 个 指定 x 和 y 带宽 的 向量 
到 h， 这 个 参数 会 被 传递 给 直接 生成 密度 估计 的 函数 kde2d () 。 本 例 中 【〈 见 图 6-35)， 
我 们 将 在 x 轴 和 yy 轴 方向 使 用 一 个 更 小 的 带宽 ， 以 使 得 密度 估计 对 数据 的 拟 合 程度 更 
高 (可 能 会 有 过 度 拟 合 ): 
p+ stat density2d(aes (fill=..density,..), geom=" 
contour=FALSE, h=c(.35,5)) 
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图 6-35 x 轴 和 y 轴 方 向 上 带宽 更 小 的 密度 图 


另 见 


stat_density2d() 函数 和 stat_bin2d() 函数 的 关系 与 它们 各 自 的 一 维 情形 ， 即 密度 
曲线 和 直方 图 之 间 的 关系 类 似 。 密 度 曲线 是 在 特定 假设 下 对 分 布 的 估计 ， 而 分 组 可 视 
化 则 是 直接 表示 观测 值 。 更 多 关于 数据 分 组 的 内 容 参 见 5.5 节 。 


如 果 想 使 用 不 同 的 调 色 板 ， 参 见 12.6 节 。 
stat density2d() 可 将 选项 传递 到 kde2d() 函数 ; 输入 ?kde2d 可 以 查看 函数 选项 的 信息 。 
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注解 





仅仅 展示 你 的 数据 是 不 够 的 一 一 还 有 许多 各 式 各 样 的 其 他 信息 可 以 帮助 看 图 者 解读 数 
据 。 除 了 坐标 轴 标 签 、 刻 度 线 和 图 例 这 些 标准 的 保留 元 素 ， 你 还 可 以 向 图 形 添加 独立 
的 图 形 元 素 或 文本 元 素 。 这 些 元 素 可 用 于 增加 额外 的 上 下 文 信息 、 高 亮 图 形 的 某 个 区 
域 ， 或 是 补充 一 些 关 于 数据 的 描述 性 文本 。 


7.1 添加 文本 注解 


问题 
如 何 向 图 形 添加 一 条 文本 注解 ”? 
方法 
使 用 annotate () 和 一 个 文本 类 几何 对 象 〈 见 图 7-1): 
p <- ggplot (faithful, aes (x=eruptions, y=waiting)) + geom point () 


: y=48, label=" ") 十 
, y=F6, label="G? ") 


p + annotatel(" Ws 


annotate ( 7 X 
讨论 
函数 annotate () 可 以 用 于 添加 任意 类 型 的 几何 对 象 。 在 本 例 中 ， 我 们 使 用 的 几何 对 
象 是 geom="text"。 
我 们 也 可 指定 其 他 文本 属性 ， 如 图 7-2 所 示 : 


p + annotatel(" 7 X=3, y=48, label=* ", family=" En 
fontface="ira “, Colour=" "Size=3) 十 
annotate ( xt"y X= , Y=76, label=" ", family="serif", 
fontface=" " QOLGUrS" } ", Size=?) 
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图 7-2 ”修改 后 的 文本 属性 

当 你 希望 添加 独立 的 文本 对 象 时 ， 千 万 不 要 使 用 geom text () 。annotate (geom="text") 
会 向 图 形 添加 一 个 单独 的 文本 对 象 ， 而 geom_text () 却 会 根据 数据 创建 许多 的 文本 对 
象 ， 如 5.11 节 讨 论 过 的 那样 。 

如 果 使 用 geom_text () ， 文 本 会 在 相同 的 位 置 被 严重 地 遮盖 ， 每 个 数据 点 各 重 绘 了 一 次 : 


P + annotate (7 "，X=3，y=325，1Label=" ”alpha=- ) + # 正名 
诺 


共 年 
geom text (x= / y=65, label=" / alpha=-.1) # 造 盖 给 制 
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在 图 7-3 中 ， 每 个 文本 标签 都 是 90% 透明 的 ， 这 样 就 很 清楚 地 显示 出 了 哪 一 个 被 遮盖 
绘制 了 。 在 输出 为 点 阵 格式 时 ， 遮 盖 绘 制 问题 可 能 会 导致 边缘 走样 《有 锯齿 )。 
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7-3 ”其 中 一 个 标签 的 遮盖 绘制 现象 一 一 事实 上 两 个 标签 都 应 为 90% 透明 
如 果 坐 标 轴 是 连续 型 的 ， 你 可 以 使 用 特殊 值 Inf 和 -Inf 在 绘图 区 域 的 边缘 放置 文本 
注解 ， 如 图 7-4 所 示 。 同 时 ， 也 需要 使 用 hjust 和 vjust 来 调整 文本 相对 于 边 角 的 位 











置 如 果 你 让 它们 留 在 默认 值 的 位 置 上 ， 这 些 文本 就 会 居中 于 边界 线 之 上 。 要 将 文 
本 定位 到 理想 的 位 置 ， 可 能 需要 进行 一 些 尝试 : 
P + annotate(” t", x=-Inf, y=Inf, label="Upr left", hjust=-.2, vjust=2) + 
annotate ("text", x=mean (range (faithful$eruptions)), y=-Inf, vjust= 
label="Bortt middle") 
= 一 
Upper left a 
90- A 
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7-4 ” 置 于 绘图 区 域 边缘 的 文本 
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另 见 
参见 5.11 节 以 绘制 带 有 文本 的 散 点 图 。 
关于 控制 文本 外 观 的 更 多 方法 ， 参 见 9.2 节 。 


7.2 在 注解 中 使 用 数学 表达 式 





问题 
如 何 添加 一 条 含 数学 符号 的 文本 注解 ? 
方法 
使 用 annotate (geom="text") 并 设置 parse=TRUE ( 见 图 7-5): 
# 一 条 正 态 曲线 
p <- ggplot (data.frame (x=c(-3, 3)), aes(x=x)) + stat function(fun = dnorm) 
p + annotate("text", x=2, y= 7 Pparse=TRUE, 
label="fra 9 # mi 人 ") 
0.3- X /2 
V2r 
>0.2- 
0.1=, 
UL 1 1 1 } 1 1 
-3 -2 -1 0 1 2 3 
x 











7-5” 含 数学 表达 式 的 注解 
讨论 
在 ggplot2 中 使 用 parse=TRUE 和 文本 类 几何 对 和 象 创建 的 数学 表达 式 ， 和 那些 在 R 基础 


图 形 中 利用 plotmath 和 expression 创建 的 数学 表达 式 有 着 类 似 的 格式 ， 唯 一 的 区 别 
是 ， 前 者 以 字符 串 的 形式 存储 ， 而 后 者 是 表达 式 对 象 。 


要 将 常规 文本 融入 表达 式 中 ， 只 需 在 双 引 号 内 使 用 单 引 号 〈 或 者 反 过 来 ) 标 出 纯 文 本 
的 部 分 即 可 。 通 过 内 部 引号 闭合 的 每 一 块 文本 都 将 被 作为 数学 表达 式 中 的 一 个 变量 对 
待 。 切 记 ， 在 了 的 数学 表达 式 语 法 中 ， 你 不 能 简单 地 把 一 个 变量 直接 放 到 另 一 个 变量 
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旁边 却 不 在 中 间 加 上 任何 记号 。 如 图 7-6 所 示 ， 要 显示 两 个 相 邻 的 变量 ， 需 要 在 它们 
之 间 放 置 一 个 * 操作 符 : 在 显示 图 形 时 ， 它 会 被 当 作 一 个 不 可 见 的 乘 号 对 符 〈 要 显示 
一 个 可 见 的 乘 号 ， 需 要 使 用 $*%): 


p + annotate( t", zx=0, y= / parse=TRUE, size=3, 
label=" l rt (2*T ') 





0.3- 


之 0.2 一 


ta 














图 7-6 含 常规 文本 的 数学 表达 式 
男 见 

更 多 数学 表达 式 的 示例 可 见 ?plotmath， 数 学 表达 式 的 图 示 参 见 ?demo (plotmath) 。 
参见 5.9 节 以 向 图 形 添加 回归 系数 。 

要 在 数学 表达 式 中 使 用 其 他 字体 ， 参 见 14.6 节 。 


7.3 添加 直线 


问题 

如 何 向 图 形 添加 直线 ? 

方法 

对 于 横 线 和 竖 线 ， 使 用 geom hline() 和 geom vline() 即 可 。 对 于 有 角度 的 直线 ， 则 
使 用 geom_abline() 〈 见 图 7-7)。 对 于 下 例 ， 我 们 将 使 用 heightweight 数据 集 : 


library (gcookbook) # 为 了 使 用 数据 集 
P“- ggplot (heightweight, aes (x=ageYear，Y=heightIn，colour=sex)) + geom _ point () 


# 添加 横 线 和 坚 线 
P + geom hline(yintercept= ) + geom Vline (xintercept=-3) 
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# 添加 有 角度 的 直线 
P + geom_abline (intercept= 1，SLope=I. 5) 

















1 I i 1 1 1 1 
12 13 14 15 16 17 12 13 14 15 16 17 
ageYear ageYear 








图 7-7 左 图 : 横 线 和 竖 线 ” 右 图 : 有 角度 的 直线 

讨论 

上 例 演示 了 手动 设置 直线 位 置 的 方法 ， 效 果 是 每 添加 一 个 几何 对 象 绘制 一 条 线 。 我 们 也 可 
以 将 值 从 数据 映射 到 xintercept、yintercept 等 之 上 ， 甚 至 是 绘制 另 一 个 数据 框 中 的 值 。 


我 们 将 在 这 里 计算 男性 和 女性 的 平均 身高 ， 并 将 它们 存储 到 一 个 数据 框 hw_means 中 。 
然后 为 每 个 均值 绘制 一 条 水 平 线 ， 并 手工 设 定 linetype 和 size( 见 图 7-8): 


library (plyr) ## 为 了 使 用 ddply() 函数 
hw_means <- ddply (heightweight, "sex", summarise, heightIn=mean (heightIn) ) 


hw_means 


sex heightIn 








£f 60.52613 
m 62.06000 
p + geom hline(aes (yintercept=heightIn, colour=sex), data=hw means, 
linetype="dashed", size=-) 
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7-8 ”在 每 组 均值 处 绘制 的 多 条 直线 
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如 果 某 个 坐标 轴 是 离散 型 而 不 是 连续 型 的 ， 不 能 以 字符 串 的 形式 直接 指定 截 距 一 一 必 
须 仍 以 数字 的 形式 指定 它们 。 假 设 此 坐标 轴 表 示 一 个 因子 ， 那 么 第 一 个 水 平 为 数值 1， 
第 二 个 水 平 为 数值 2， 依次 类 推 。 可 以 像 下 面 这 样 手工 指定 数值 型 的 截 距 ， 或 者 使 用 
which (levels(...)) 计算 所 需 数值 ( 见 图 7-9): 


pg <- ggplot (PlantGrowth, aes (x=group, y=weight)) + geom point () 
pg + geom vline(xintercept = 2) 


pg + geom vline(xintercept = which(levels (PlantGrowth$group)==" 人 
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7-9 ”离散 型 坐标 轴 上 的 直线 


这 你 可 能 已 经 注意 到 ， 添 加 直线 与 添加 其 他 的 注解 有 所 不 同 。 我 们 使 用 了 
Ey geom hline () 和 其 他 相关 函数 ， 却 并 未 使 用 annotate () 函数 。 这 是 因为 
一 由 ggplot2 的 早期 版 本 中 并 没有 annotate () 函数 。 直 线 几 何 对 象 过 去 被 编码 
用 于 处 理 添加 单条 直线 的 特殊 情况 ， 修 改 它 将 会 破坏 向 下 兼容 性 。 在 未 来 
某 个 版 本 的 ggplot2 中 ， 这 一 点 将 会 有 所 改变 ，annotate () 将 可 以 配合 直 
线 几 何 对 象 正 常 工 作 。 
另 见 
要 添加 回归 曲线 ， 参 见 5.6 节 和 5.7 节 。 


线条 经 常用 于 显示 数据 的 概要 信息 。 参 见 15.17 节 以 了 解 更 多 按照 组 计算 数据 概要 的 方法 。 


7.4 添加 线段 和 箭头 


问题 
如 何 向 图 形 添加 线段 或 箭头 ? 
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方法 


使 用 annotate("segment")。 在 本 例 中 ， 我 们 将 使 用 cl imate 数据 集中 数据 来 源 为 
Berkeley 的 子 集 ( 见 图 7-10): 
library (gcookbook) # 为 了 使 用 数据 集 


p <- ggplot (subset (climate, Source=="Berkeley"), aes (x=Year, y=Anomalyl0y)) + 
geom line() 


bp + annotate("segment", x=1950, xend=19850, y=-.25, Yend=-.25) 





图 7-10 ”线段 注解 


讨论 
可 以 使 用 grid 包 中 的 arrow() 函数 向 线段 两 端 添 加 箭头 或 平头 。 在 本 例 中 ， 我 们 将 一 
并 演示 〈 见 图 7-11): 


library (grid) 
p + annotate ("segment", x=1550, xend=i520, y=-.5, yend=-.95, colour="blue", 
Size= ”, arrow=arrow()) + 
annotate ("segment", x=) 51, xend=1935(, y=-.25, yend=-.25, 


arrow=arrow (ends="both", angle=3", length=unit(.2,"cm"))) 





7-11 ” 带 有 箭头 的 线段 


130 第 7 章 


箭头 线 的 默认 角度 (angle) 为 30 度 ， 默 认 长 度 (length) 为 0.2 英寸 (0.508 厘米 )。 
如 果 一 个 或 多 个 坐标 轴 是 离散 型 的 ， 则 x 和? 的 位 置 即 由 拥有 坐标 值 1,2,3 等 的 类 别 项 表示 。 


另 见 
要 了 解 关于 绘制 箭头 所 需 参数 的 更 多 信息 ， 请 载 入 grid 包 后 查看 ?arrow。 


7.5 添加 矩形 阴影 
问题 

如 何 添加 一 个 阴影 区 域 ? 

方法 


使 用 annotate ("rect")〔( 见 图 7-12): 


library(gcookbook) 半 为 了 使 用 数据 集 





p <- ggplot (subset (climate, Source=="Berkeley"), aes (x=Year, y=Anomalyl0y)) + 
geom line() 
p + annotate ("rect", xmin= 1 xmax= , ymin=-1, ymax=], alpha=,1, 
fill="blue") 
1.0 
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图 7-12 ”一 个 矩形 阴影 
讨论 
每 一 个 图 层 都 是 按照 添加 到 ggplot 对 象 的 先后 顺序 绘制 的 ， 所 以 上 例 中 的 矩形 被 绘 


制 在 了 曲线 上 方 。 在 这 个 例子 中 这 不 成 问题 ， 但 是 如 果 你 想 把 曲线 放 在 矩形 上 方 ， 则 
要 先 添加 矩形， 再 添加 曲线 。 


只 要 传递 了 合适 的 参数 ， 任 意 几 何 对 象 都 可 以 配合 annotate() 使 用 。 在 本 例 中 ， 
geom_rect () 所 需 的 参数 是 x 和 y 的 最 大 值 与 最 小 值 。 
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问题 

如 何 修改 某 一 元 素 的 颜色 以 使 其 突出 显示 ? 

方法 

要 高 亮 一 个 或 多 个 元 素 ， 需 要 在 数据 中 创建 一 个 新 列 并 将 其 映射 为 颜色 。 在 本 例 中 ， 
我 们 将 创建 一 个 新 列 bl， 并 根据 group 的 值 来 设 定 它 的 值 : 








pg <- PlantGrowth # 复制 一 份 PlantGrowth 数据 
pg$hl <- "no" # 设 定 所 有 值 为 "no" 
pg$hl [pg$group=="trt2"] <- "yes" # 如 果 group 值 为 "trt2"， 设 定 为 "yes" 
接 下 来 使 用 手工 指定 的 颜色 画图 ， 且 不 加 图 例 〈 见 图 7-13): 
ggplot (pg, aes (x= / y=weight, fill= hl)) + om boxplot () + 
scale fill manual (values=c("g 85", "#FF "), guide=FALSE) 
6.0- 和 
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图 7-13 ”高 亮 一 个 元 素 

讨论 

如 果 你 有 像 本 例 一 样 少量 的 元 素 要 高 亮 ， 那 么 可 以 使 用 原始 变量 并 为 每 个 水 平 指定 颜 
色 ， 而 不 必 创 建 一 个 新 列 。 举 例 来 说 ， 下 列 代码 将 使 用 PlantGrowth 数据 中 的 group 
列 ， 并 手工 为 三 个 水 平 逐个 设 定 颜色 。 结 果 看 起 来 与 前 述 代 码 相同 : 


ggplot (PlantGrowth, aes (x=group, y= Se fill= TOY 相 Vem boxplot() + 
scale fill manual (values=c ("gi SF" "ore ', "#FFDDCC"), guide=FALSE) 
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另 见 


参见 第 12 章 以 了 解 关于 如 何 指定 颜色 的 更 多 信息 。 


关于 移 除 图 例 的 更 多 说 明 ， 参 见 


Fa 


问题 
如 何 向 图 形 添加 误差 线 ? 


方法 


添加 误差 线 


10.1 节 。 


使 用 geom errorbar 并 将 变量 映射 到 ymin 和 ymax 的 值 即 可 。 对 于 条 形 图 和 折线 图 ， 
添加 误差 线 的 方法 相同 ， 如 图 7-14 所 示 ( 尽 管 条 形 图 与 折线 图 y 的 默认 范围 有 所 不 同 ): 


library (gcookbook) 


# 为 了 使 用 数据 集 


# 为 本 例 抽 取 cabbage exp 数据 的 一 个 子 集 
ce <- subset (cabbage exp, Cultivar == "c39") 


# 为 条 形 图 添加 误差 线 
ggplot (ce, aes (x=Date, y=Weight)) + 
geom bar (fill=" "/ colour="black") + 
geom errorbar (aes (ymin=Weight-se, ymax=Weight+se), width=.°) 


# 为 折线 图 添加 误差 线 
ggplot (ce, aes (x=Date, y=Weight)) + 
geom Jine (aes (group=1)) + 
geom point (size=j) + 
geom errorbar (aes (ymin=Weight-se, ymax=Weight+se), width=.2) 
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图 7-14 左 图 : 条 形 图 上 的 误差 线 


讨论 


右 图 : 折线 图 上 的 误差 线 


在 本 例 中 ， 数 据 已 经 包含 了 均值 的 标准 误差 (se)， 我 们 将 利用 它 来 绘制 误差 线 〔 数 
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据 中 也 包含 了 标准 差 (sd) 的 数据 ， 不 过 我 们 在 这 里 用 不 着 它 ): 


Ce 


Cultivar Date Weight sd n se 
c39 dl6 3.18 0.9566144 10 0.30250803 
c39 d20 2.80 0.2788867 10 0.08819171 
c39 d21 2.74 0.9834181 10 0.31098410 


为 了 获得 ymax 和 ymin 的 值 ， 我 们 取 y 值 变量 weight 加 上 和 减 去 了 se。 


同样 ， 我 们 使 用 width=.2 指定 了 误差 线 的 末端 宽度 。 要 找到 看 起 来 理想 的 值 ， 最 好 进行 
一 些 试探 。 如 果 你 不 设置 这 个 宽度 ， 则 误差 线 将 会 非常 宽 ， 横 跨 x 轴 上 各 项 的 全 部 空间 。 


对 于 一 幅 分 组 的 条 形 图 ， 各 误差 线 也 必须 被 并 列 〈dodged); 否则 ， 它 们 会 有 完全 相同 
的 x 坐标 ， 无 法 与 条 形 对 齐 〈 参 见 3.2 节 以 了 解 关 于 分 组 条 形 图 和 并 列 的 更 多 信息 )。 


这 次 我 们 将 利用 完整 的 cabbage_exp 数据 集 : 


cabbage exp 


Cultivar Date Weight sd n se 
c39 dl6 3.18 0.9566144 10 0.30250803 


c39 d20 2.80 0.2788867 10 0.08819171 
c39 d21 2.74 0.9834181 10 0.31098410 
c52 dl6 2.26 0.4452215 10 0.14079141 
c52 d20 3.11 0.7908505 10 0.25008887 


c52 d21 1.47 0.2110819 10 0.06674995 


geom_bar () 的 默认 并 列 宽度 为 0.9， 你 必须 让 误差 线 的 并 列 宽度 与 此 相同 。 如 果 不 指定 
并 列 宽度 ， 则 默认 按 误差 线 的 宽度 并 列 ， 而 此 宽度 通常 会 小 于 条 形 的 宽度 ( 见 图 7-15): 
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7-15 ” 左 图 : 分 组 条 形 图 上 的 误差 线 未 指定 并 列 宽度 ” 右 图 : 指定 了 并 列 宽度 


# 反例 : 未 指定 并 列 宽度 

ggplot (cabbage exp, aes (x=Date, y=Weight, fill=Cultivar)) + 
geom bar (position="dodge") + 
geom errorbar (aes (ymin=Weight-se, ymax=Weight+se), 
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position="dodga", width= 


# 正 例 : 设 定 并 列 宽度 与 条 形 的 相同 (0.9) 
ggplot (cabbage exp, aes (x=Date, y=Weight, fill=Cultivar)) + 


geom bar (position="dodge") + 
geom errorbar (aes (ymin=Weight-se, ymax=Weight+se), 
position=position dodge( ), width=.2) 


注意 我 们 在 第 一 个 版 本 中 使 用 了 position="dodge"， 即 position=position 
dodge () 的 简写 。 但 如 果 要 传递 一 个 特定 值 ， 我 们 必须 把 它 完 整地 拼 出 ， 
”如 position dodge (0.9)。 
对 于 折线 图 来 说 ， 如 果 误 差 线 的 颜色 与 线 和 点 的 颜色 不 同 ， 则 应 先 绘制 误差 线 ， 这 样 它 
们 就 会 位 于 点 和 线 的 下 层 了 。 和 否则 ， 误 差 线 将 被 绘制 在 点 和 线 的 上 层 ， 看 起 来 会 不 太 对 。 
另外 ， 你 应 当 同 时 并 列 所 有 的 几何 元 素 ， 这 样 它 们 就 会 同 误差 线 对 齐 ， 如 图 7-16 所 示 : 


pd <- position dodqge(.]) # 保存 并 列 参数 ， 因 为 我 们 要 重复 使 用 它 





ggplot (cabbage exp, aes (x=Date, y=Weight, colour=Cultivar, group=Cultivar)) + 
geom errorbar (aes (ymin=Weight-se, ymax=Weight+se), 
width=. >, size= / Colour="black", position=pd) + 
geom line(position=pd) + 
geom point (position=pd, size= ) 


# 使 用 size=0.25 绘制 更 细 的 误差 线 线 条 ， 使 用 size=2.5 绘制 更 大 的 点 
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7-16 ”折线 图 上 的 误差 线 ,已 被 并 列 所 以 不 会 相互 重 区 


注意 ， 我 们 设置 了 colour="black” 以 使 误差 线 为 黑色 ， 否 则 它们 将 继承 上 方 的 colour 
值 。 我 们 也 通过 将 cultivar 映射 到 group 的 方式 来 确保 它 被 作为 分 组 变量 使 用 。 


当 一 个 离散 型 变量 被 映射 到 一 个 如 colour 或 fi11 的 图 形 属性 时 (如 条 形 的 例子 )， 
此 变量 就 会 被 用 于 对 数据 进行 分 组 。 但 是 通过 设 定 误 差 线 的 colour 属性 ， 我 们 将 使 
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这 个 针对 colour 的 变量 并 没 用 于 分 组 ， 所 以 需要 一 些 其 他 的 途径 来 通知 ggplot () 在 
每 个 x 位 置 的 这 两 组 数据 属于 不 同 的 组 ， 这 样 它们 就 可 以 被 正确 地 并 列 了 。 
另 见 


参见 3.2 节 以 了 解 更 多 关于 创建 分 组 条 形 图 的 信息 ， 参 见 4.3 节 以 了 解 如 何 创建 含 多 


参见 15.18 节 以 计算 均值 、 标 准 差 、 标 准 误差 和 置信 域 等 统计 汇总 。 
参见 4.9 节 以 在 数据 沿 x 轴 有 更 高 密度 时 添加 一 个 置信 域 。 


7.8 向 独立 分 面 添加 注解 

问题 

如 何 向 图 形 中 的 各 个 分 面 添加 注解 ? 

方法 

使 用 分 面 变量 创建 一 个 新 的 数据 框 ， 并 设 定 每 个 分 面 要 绘制 的 值 。 然 后 配合 新 数据 框 
使 用 geom text()〔 见 图 7-17): 








. 
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图 7-17 上 图 : 每 个 分 面 的 注解 不 同 下 图 : 每 个 分 面 的 注解 相同 
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# 基本 图 形 
p <- ggplot (mpg, aes (x=displ, y=hwy)) + geom _ point() + facet grid(. ~ drvV) 


# 存 有 每 个 分 面 所 需 标签 的 数据 杠 
£f labels <- data.frame(drv = c("4", "f", "r"), label = c("4wd", "Front", "Rear")) 


p + geom text (x=6, y=40, aes (label=label), data=f labels) 


# 如 果 你 使 用 annotate ()， 标签 将 在 所 有 分 面 上 出 现 


P + annotate("text", x=6, y=42, label="label text") 
讨论 
这 种 方法 可 以 用 于 显示 每 个 分 面 中 关于 数据 的 信息 ， 如 图 7-18 所 示 。 举 例 来 说 ， 我 们 
可 以 展示 每 个 分 面 的 线性 回归 曲线 、 每 条 曲线 的 回归 公式 ， 以 及 rr 的 值 。 要 完成 这 件 
任务 ， 我 们 将 编写 一 个 函数 ， 它 可 以 输入 一 个 数据 框 并 返回 男 外 一 个 数据 框 ， 其 中 包 
含 一 个 含有 回归 公式 的 字符 串 和 一 个 含 产 值 的 字符 串 。 然 后 我 们 使 用 ddply () 将 这 个 
函数 应 用 到 每 一 组 数据 上 : 

# 此 函数 返回 一 个 数据 框 ， 其 中 的 字符 囊 

# 表示 回归 公式 和 rr^2 值 

# 这 些 字符 囊 将 被 认为 是 RR 中 的 数学 表达 式 

lm labels <- function(dat) { 

mod <- lm(hwy ~ displ, data=dat) 


formila <- sprintf ("italic(y) == $%.2f $+.2f * italic (x)", 
round (coef (mod) [1], 2), round(coef (mod) [2], 2)) 


r <- cor(dat$displ, dat$hwy) 


r2 <- sprintf("italic(R^2) == $$.2f", r 人 “2 
data.frame (formula=formula, r2=r2, stringsAsFactors=FALSE) 


library (plyr) # 为 了 使 用 ddply() 函数 


labels <- ddply(mpg, "drv", lm labels) 
labels 
drv formula r2 


4 italic(y) == 30.68 -2.88 * italic(x) italic(R^2) == 0.65 
f italic(y) == 37.38 -3.60 * italic(x) italic(R^2) == 0.36 
r italic(y) == 25.78 -0.92 * italic(x) italic(R^2) == 0.04 


# 绘制 公式 和 R^2 值 

p + geom smooth (method=lm, se=FALSE) + 
geom text (x=3, y=:0, aes (label=formula), data=labels, parse=TRUE, hjust=0) + 
geom text (x=3, y=35, aes(label=r2), data=labels, parse=TRUE, hjust=0) 
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图 7-18 ”各 个 分 面 中 的 注解 ， 含 有 关于 数据 的 信息 


我 们 需要 在 这 里 编写 自己 的 函数 ， 是 因为 要 生成 线性 模型 并 提取 系数 需要 直接 操作 数 
据 框 中 的 每 个 子 集 。 如 果 你 仅仅 想 要 展示 产值 ， 通 过 配合 ddply () 使 用 summarise () 
函数 并 传递 附加 参数 给 summarise() ， 完 全 可 以 做 得 更 简单 : 


# 计算 每 组 的 z^2 第 
labels <- ddply(mpg, "drv", summarise, r2 = cor(disp1，hwy)^2) 
labels$r2 <- Sprintf("italic(R^2) .2f", labels$r2) 


文本 类 几何 对 象 并 不 是 可 向 每 个 分 面 独立 添加 的 唯一 几何 对 象 。 只 要 输入 的 数据 结构 
正确 ， 我 们 可 以 使 用 任意 几何 对 象 。 

另 见 

参见 7.2 节 以 了 解 更 多 在 图 形 中 使 用 数学 表达 式 的 方法 。 


如 果 你 不 想 让 ggplot2 使 用 stat_smooth () 为 你 绘制 预测 曲线 ， 而 是 希望 使 用 自己 的 
模型 对 象 绘制 ， 请 参见 5.8 节 。 
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x 轴 和 yy 轴 为 解读 所 展示 的 数据 提供 了 上 下 文 信息 。ggplot2 以 默认 设置 显示 的 坐标 轴 
在 多 数 情况 下 看 起 来 都 不 错 ， 不 过 你 也 许 希 望 能 够 控制 细节 ， 例 如 ， 坐 标 轴 标 签 、 
刻度 线 的 数量 和 布局 、 刻 度 线 标签 等 。 在 本 章 中 ， 将 介绍 如 何 微调 坐标 轴 的 外 观 。 


8.1 交换 x 轴 和 ]) 轴 

问题 

如 何 交 换 一 幅 图 上 的 x 轴 和 》 轴 ? 

方法 

使 用 coord_flip () 来 翻转 坐标 轴 ( 见 图 8-1): 


ggplot (PlantGrowth, aes (x=group, y=weight)) + geom boxplot () 


ggplot (PlantGrowth, aes (x=group, y=weight)) + geom boxplot() + coord flipl() 








村 一 本 
55- 
村 [= 
时 5.0- atrt- ee 
三 [= 
4.5- 
| | | | 
3.5- 0 ' 0 1 ' 1 ' 1 1 
ctrl trtf trt2 35 40 45 50 55 6.0 
group weight 








图 8-1 左 图 : 含 常 规 坐 标 轴 的 箱 线 图 “ 右 图 : 交换 了 坐标 轴 的 箱 线 图 
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讨论 

对 于 散 点 图 来 说 ， 调 换 纵 轴 和 横 轴 上 显示 的 元 素 非常 简单 : 仅仅 交换 映射 到 x 和 yy 的 
变量 就 可 以 了 。 但 并 不 是 所 有 ggplot2 中 的 几何 对 象 都 会 同等 对 待 x 轴 和 ?了 轴 。 举 例 来 
说 ， 箱 线 图 依 y 轴 对 数据 计算 统计 摘要 ， 折 线 图 中 的 线段 只 沿 x 轴 移 动 ， 误 差 线 只 有 
一 个 单独 的 x 值 但 具有 若干 y 值 ， 等 等 。 如 果 你 正在 使 用 这 些 几何 对 象 ， 并 且 希 望 在 
图 形 中 交换 它们 的 坐标 轴 ， 那 么 coord_flip () 正 是 你 所 需要 的 。 


有 时 在 交换 坐标 轴 后 ， 各 项 的 顺序 可 能 正好 与 你 想 要 的 相反 。 在 一 幅 有 着 标准 x 轴 
和 yy 轴 的 图 形 上 ， 与 x 对 应 的 项 目 从 左 到 右 排 列 ， 这 与 正常 从 左 到 右 的 阅读 方式 一 
致 。 但 是 当 你 交换 了 坐标 轴 ， 各 项 仍 是 从 原点 开始 向 外 排列 ， 在 这 种 情况 下 就 是 从 下 
到 上 ， 与 正常 从 上 到 下 的 阅读 方式 发 生 冲突 。 某 些 时 候 这 是 一 个 问题 ， 某 些 时 候 又 不 
是 。 如 果 x 变量 是 一 个 因子 型 变量 ， 则 排列 顺序 可 以 通过 使 用 scale x discrete() 
和 参数 1imits=rev (levels (...)) 进行 反 转 ， 如 图 8-2 所 示 : 


ggplot (PlantGrowth, aes (x=group, y=weight)) + geom boxplot() + coord flip() + 
Scale x discrete (limits=rev (levels (PlantGrowthSgroup) ) ) 





1 LI 1 1 1 1 
3.5 40 45 50 55 6.0 
weight 











8-2 ”交换 了 坐标 轴 并 反 转 了 x 轴 元 素 顺序 的 箱 线 图 


沱 见 
如 果 变 量 是 连续 型 的 ， 参 见 8.3 节 以 反 转 其 方向 。 


8.2 设置 连续 型 坐标 轴 的 值 域 
问题 
如 何 设置 某 条 坐标 轴 的 值 域 (或 范围 )? 


140 第 8 章 


方法 
你 可 以 使 用 xlim() 或 ylim() 来 设置 一 条 连续 型 坐标 轴 的 最 小 值 和 最 大 值 。 图 8-3 展 
示 了 一 幅 使 用 默认 >” 轴 范围 的 图 形 和 另 一 幅 手动 设 定 > 轴 范围 的 图 形 ， 

p <- ggplot (PlantGrowth, aes (x=group, y=weight)) + geom boxplot 1() 

# 显示 基本 图 形 

Pp 


p + ylim(), max(PlantGrowth$weight)) 


本 本 


T 1 1 上 
ctn tt trt2 ctrl trt1 trt2 
group group 





ga 











图 8-3 左 图 : 使 用 默认 值 域 的 箱 线 图 “ 右 图 : 使 用 手动 设 定 值 域 的 箱 线 图 
第 二 个 示例 将 y 轴 的 值 域 设置 为 从 0 到 weight 列 的 最 大 值 ， 当 然 此 处 使 用 一 个 常数 
值 ( 如 10) 作为 最 大 值 也 无 妨 。 


讨论 
使 用 ylim() 来 设 定 范围 是 通过 scale y_continuous() 来 设 定 范围 的 简便 写法 (对 于 
xlim() 和 scale x_continuous() 同 理 )。 以 下 两 种 表达 方式 等 价 : 

ylim(0, 10) 

Scale y continuous (limits=c (0, ) ) 
有 了 时， 你 需要 设 定 scale_y_continuous () 的 其 他 属性 ， 在 这 些 情 况 下 同时 使 用 
ylim() 和 scale_y_continuous () 可 能 会 让 程序 产生 一 些 不 可 预知 的 行为 ， 这 是 因为 
只 有 命令 中 的 后 一 条 会 生效 。 在 以 下 两 个 示例 中 ，ylim (0， 10) 应 当 设 定 的 值 域 为 
从 0 到 10， 而 scale y continuous (breaks=c(0，5，10)) 应 将 刻度 线 放 置 到 0、5 
10 的 位 置 。 但 是 在 这 两 个 例子 中 ， 仅 有 第 二 条 命令 生效 ": 


P + ylim(0, ) + Scale y continuous (breaks=c (0, 5, 10)) 


P + scale y continuous (breaks=c (0, 5, )) + ylim(0, ) 


Q 原 书 中 给 出 的 代码 为 breaks=NULL， 与 文中 所 述 breaks=c (0,5,10) 不 一 致 ， 可 能 是 笔 误 。 本 段 和 下 一 
段 中 含有 breaks 的 三 条 命令 已 经 依照 原文 进行 了 修正 。 一 一 译 者 注 
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要 让 两 项 修改 均 生效 ,舍弃 ylim () 并 直接 在 scale_y_continuous () 中 同时 设 定 
limits 和 breaks 即 可 : 


p+ scale y continuous (Limits=c(0， )，breaks=c(0，5， )) 


ggplot2 中 有 两 种 设置 坐标 轴 值 域 的 方式 。 第 一 种 方式 是 修改 标 度 ， 第 二 种 方式 是 应 用 一 
个 坐标 变换 。 当 你 修改 x 标 度 和 >? 标 度 的 范围 时 ， 任 何在 范围 以 外 的 数据 都 会 被 移 除 一 一 
换言之 ， 超 出 范围 的 数据 不 仅 不 会 被 展示 ， 而 且 会 被 完全 移出 考虑 处 理 的 数据 范围 。 


以 上 文 的 箱 线 图 为 例 ， 如 果 你 限制 了 y 的 值 域 ， 使 得 某 些 原 始 数据 被 剪除 掉 ， 则 箱 线 
图 中 统计 量 的 计算 都 会 基于 修剪 后 的 数据 ， 而 箱 线 的 形状 也 会 随 之 改变 。 

通过 使 用 坐标 变换 ， 数 据 则 不 会 被 修剪 ， 从 本 质 上 说 ， 它 只 是 将 数据 放大 或 缩小 到 指 
定 的 范围 。 图 8-4 展示 了 两 种 方式 的 区 别 : 











p + scale_y_continuous (limits = c(5, ) # 与 使 用 ylim() 相同 
p + coord cartesian(ylim = c(5, ) ) 
6.5- od 
间 . 
6.0- 4 
一 一 有 T 
SS 对 
2 
5.5- - 
5.07 
和 ' 1 
ut trt2 ctrl trt1 trt2 
group group 








图 8-4 左 图 : 使 用 标 度 限制 y 到 更 小 的 范围 ( 数据 被 丢 奔 ， 所 以 箱 线 图 的 形状 发 生 了 改变 ) 
右 图 : 使 用 坐标 变换 “放大 ”了 数据 


最 后 ， 通 过 使 用 expand_1limits () 来 单 向 扩展 值 域 也 是 可 以 的 〈 见 图 8-5)。 不 过 ， 你 
不 能 使 用 它 来 缩减 值 域 : 


P + expand limits (y=) 








re 


Wi 


9 


0 t ' 
ctrl tf trt2 
group 














8-5 ?的 值 域 被 扩展 到 包含 0 的 箱 线 图 
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8.3 ” 反 转 一 条 连续 型 坐标 轴 


问题 

如 何 反 转 一 条 连续 型 坐标 轴 的 方向 ? 

方法 

使 用 scale y reverse 或 scale x reverse( 见 图 8-6)。 坐 标 轴 的 方向 也 可 通过 指定 
反 序 的 范围 来 反 转 ， 先 写 最 大 值 ， 再 写 最 小 值 : 


ggplot (PlantGrowth, aes (x=group, y=weight)) + geom boxplot() + scale y reverse!() 


# 通过 指定 反 序 的 范围 产生 类 似 的 效果 
ggplot (PlantGrowth, aes (x=group, y=weight)) + geom boxplot() + ylim!( y ) 





i 下 
ctrl tnt tr2 
group 











图 8-6 反 转 y 轴 后 的 箱 线 图 

讨论 

与 scale y_continuous () 类 似 ，scale y_reverse() 也 无 法 与 ylinm 配合 工作 (对 x 
轴 属 性 也 一 样 )。 如 果 你 希望 反 转 某 条 坐标 轴 并 为 它 设 定 值 域 ， 则 必须 通过 反 序 设 定 
范围 的 方式 ， 在 scale_y_reverse() 语句 内 完成 〈 见 图 8-7): 


ggplot (PlantGrowth, aes (x=group, y=weight)) + geom boxplot() + 
scale y reverse(limits=c(:, )) 








"se 


' ' 下 
ct trt1 tr 
group 














8-7 ”手动 设 定 范围 且 反 转 了 y 轴 的 箱 线 图 
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另 见 
要 反 转 离散 型 坐标 轴 项 目的 顺序 ， 参 见 8.4 节 。 


8.4 修改 类 别 型 坐标 轴 上 项 目的 顺序 


问题 

如 何 修改 类 别 型 坐标 轴 上 项 目的 顺序 ? 

方法 

对 于 类 别 型 (或 者 说 离散 型 ) 坐标 轴 来 说 ， 会 有 一 个 因子 型 变量 映射 到 它 上 面 ， 坐 标 轴 上 项 
目的 顺序 可 以 通过 设 定 scale x discrete() 或 scale y discrete () 中 的 参数 limits 来 修改 。 


要 手动 设 定 坐标 轴 上 项 目的 顺序 ， 将 一 个 依 理想 顺序 排列 的 水 平 向 量 指定 给 1imits 
即 可 。 你 也 可 以 使 用 这 个 向 量 来 忽略 某 些 项 目 ， 如 图 8-8 所 示 : 


p <- ggplot (PlantGrowth, aes (x=group, y=weight)) + geom boxplot () 





P+ seale x discerete (limits=c ("trtl"s "cErl" "trt2")) 
6.0- je 6.0— 和 
3 . 
5.5 一 5.5- 
二 天 
Bs 0- 是 5.0- 
3 三 
4.5- 4.5— 
4.0- 4.0- 
3.5- I T 1 3.5- I ! 
trtf ctrl trt2 ctrl trt1 
group group 











图 8-8” 左 图 : 手动 指定 x 轴 项 目 顺序 的 箱 线 图 右 图 : 仅 保 留 两 项 的 箱 线 图 

讨论 

你 也 可 以 使 用 以 上 方法 在 坐标 轴 上 展示 项 目的 子 集 。 使 用 以 下 语句 将 仅 显 示 ctrl 和 
trt1〈 见 图 8-8 右 图 ): 


p+ Scale x discrete (limits=c("ctrl", "trt1")) 
要 反 转 项 目 顺序 ， 设 定 1imits=rev (levels (...))， 将 因子 型 变量 放 入 括号 中 即 可 。 


以 下 语句 将 反 转 因子 PlantGrowth$group 的 顺序 ， 如 图 8-9 所 示 : 


p+ scale x discrete(limits=rev (levels (PlantGrowth$group))) 





瑟 与 忌 
F 导 
晤 50 一 
3 
4.5- 
4.0— 
3.5- ! I 1 
trt2 trt1 ctrl 
group 











图 8-9 反 转 了 x 轴 项 目 顺 序 的 箱 线 图 


另 见 
要 根据 另外 一 列 数据 的 值 对 因子 水 平 进行 重 排序 ， 参 见 15.9 节 。 


8.5 ”设置 x 轴 和 yy 轴 的 缩放 比例 


问题 
如 何 设置 x 轴 和 >? 轴 的 缩放 比例 ? 
方法 
使 用 coord_fixed() 。 以 下 代码 将 得 到 x 轴 和 ?y 轴 之 间 1:1 的 缩放 结果 ， 如 图 8-10 所 示 : 
library(gcookbook) # 为 了 使 用 孝 据 集 
sp <- ggplot (marathon, aes(x=Half,y=Full)) + geom point () 
sp + coord fixed () 
讨论 
marathon 数据 集中 包含 了 跑步 者 的 全 程 马拉松 成 绩 和 半 程 马拉松 成 绩 。 在 这 种 情况 
下 ， 强 制 相 同 的 x 轴 和 ?了 轴 缩 放 比例 可 能 是 有 用 的 。 
通过 在 scale y continuous() 和 scale x _continuous() 中 调整 参数 breaks， 从 而 


将 刻度 间距 设 为 相同 ， 也 会 有 所 帮助 〈 同 样 见 图 8-10): 


中 作者 在 这 里 所 指 的 1:1 缩放 并 不 是 缩放 结果 的 总 长 宽 比 例 为 1:1， 而 是 指 坐 标 轴 单 位 长 度 表 示 的 数值 范 
围 是 1:1 的 。 默 认 情 况 下 ，ggplot2 使 两 轴 总 长 宽 比 例 为 1:1， 从 而 形成 正方 形 的 绘图 区 域 ， 此 时 两 轴 上 
单位 长 度 表示 的 数值 范围 往往 是 不 同 的 。 一 一 译 者 注 
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sp + coord fixed() + 
scale y continuous (breaks=seq(", 32 
scale x continuous (breaks=seq(0，320 





图 8-10 左 图 : 等 长 缩放 坐标 轴 的 散 点 图 “ 右 图 : 在 指定 位 置 放置 了 刻度 线 的 散 点 图 


如 果 你 希望 为 两 个 坐标 轴 之 间 指 定 其 他 的 固定 比例 而 非 相 同 的 比例 ， 可 以 设置 参数 
ratio。 对 于 marathon 数据 集 ， 我 们 可 能 想 让 对 应 半 程 马拉松 时 间 的 坐标 轴 被 拉 伸 到 
全 程 马拉松 时 间 坐 标 轴 的 两 倍 ”〈 见 图 8-11)。 我 们 也 将 在 x 轴 上 添加 双 倍 的 刻度 线 : 


sp + coord fixed(ratio=-/ ) + 
scale y continuous (breaks=seq( ，2:2.，2 )) + 
scale x continuous (breaks=seq(", 2 ，2=)) 





8-11 ”坐标 轴 缩 放 比 例 为 1/2 的 散 点 图 


中 这 里 的 倍数 同样 指 单位 长 度 坐 标 轴 表 示 的 数值 范围 ， 同 上 。 一 一 译 者 注 
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8.6 设置 刻度 线 的 位 置 


问题 

如 何 设置 刻度 线 在 坐标 轴 上 出 现 的 位 置 ? 

方法 

通常 来 说 ggplot () 会 自动 将 刻度 线 摆 放 在 合适 的 位 置 ， 但 如 果 你 希望 改变 它们 的 位 
置 ， 设 置 标 度 中 的 参数 breaks 即 可 〈 见 图 8-12): 


ggplot (PlantGrowth, aes (x=group, y=weight)) + geom boxplot () 


ggplot (PlantGrowth, aes (x=group, y=weight)) + geom boxplot() + 








scale y continuous (breaks=c (3, / 5 3，6，， 8)) 
6.0- be 6.00- 机 - 
. fe 
5:5" -0 
至 k= 1 
.号 5.0- -对 5.00-~ 
[5 | 加 ) 
2 
4.5" 4.50— 1 
4.25~ b | 
4.0— 4.00— T 
3.5— T I T T T i 
ctri trtf trt2 ctrl trt1 trt2 
group group 











图 8-12 左 图 : 自动 确定 刻度 线 的 箱 线 图 “ 右 图 : 手动 设置 刻度 线 的 箱 线 图 

讨论 

刻度 线 的 位 置 决定 了 绘制 主 网 格 线 的 位 置 。 如 果 该 坐标 轴 表 示 一 个 连续 型 变量 ， 那 么 
颜色 更 暗 且 没有 标签 的 次 网 格 线 将 被 默认 绘制 在 每 两 个 主 网 格 线 的 正中 间 位 置 。 

你 也 可 以 使 用 seq() 函数 或 运算 符 : 来 生成 刻度 线 的 位 置 向 量 : 


seq(4, 7, by=.°) 


4.0 4.5 5.0 5.5 6.0 6.5 7.0 


5 6 7 8 3 10 


如 果 坐 标 轴 是 离散 型 而 不 是 连续 型 的 ， 则 默认 会 为 每 个 项 目 生成 一 条 刻度 线 。 对 于 离 
散 型 坐标 轴 ， 你 可 以 通过 指定 1imits 来 修改 项 目的 顺序 或 移 除 项 目 〈 人 参见 8.4 节 )。 设 
定 breaks 将 会 决定 为 哪些 水 平 加 上 标签 ， 但 不 会 移 除 它们 或 是 改变 它们 的 顺序 。 图 
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8-13 展示 了 当 你 设 定 Limits 和 breaks 时 将 会 发 生 的 情况 : 


# 为 离散 型 坐标 轴 同 时 设 定 breaks 和 Limits 
ggplot (PlantGrowth, aes (x=group, y=weight)) + geom boxplot() + 
scale x discrete (limits=ce("trt2", "ctrl"), breaks="ctrl") 








' 
Ctrl 
group 











8-13 ”对 离散 型 坐标 轴 ， 设 置 limits 以 重 排序 或 移 除 项 目 ， 同 时 设置 breaks 来 控制 哪些 项 
目 拥 有 标签 


男 见 
要 从 图 中 移 除 刻度 线 和 刻度 线 标签 (不 修改 数据 )， 参 见 8.7 节 。 


8.7 移 除 刻度 线 和 标签 


问题 
如 何 移 除 刻度 线 和 刻度 标签 ? 
方法 
要 像 图 8-14 左 图 一 样 仅 移 除 刻度 标签 ,使 用 theme (axis.text.y = element_ 
blank()) 〈 也 可 对 axis.text.x 做 相同 处 理 ) 即 可 。 这 种 方法 对 于 连续 型 和 离散 型 坐 
标 轴 均 有 效 : 

p <- ggplot (PlantGrowth, aes(x=group, y=weight)) + geom boxplot () 


P + theme (axis.text.y = element blank ()) 


要 移 除 刻 度 线 ， 可 使 用 theme (axis.ticks=element blank())。 这 样 将 会 同时 移 除 两 
轴 的 刻度 线 〈 无 法 仅 隐 藏 单个 坐标 轴 的 刻度 线 )。 在 本 例 中 ， 我 们 将 隐藏 所 有 的 刻度 
线 和 > 了 轴 的 刻度 标签 〈 见 图 8-14 中 图 ): 


P + theme (axis.ticks = element blank(), axis.text.y = element blank()) 
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让 


图 8-14， 左 图 : 轴 上 无 刻度 标签 ; 中 图 :y 轴 上 既 无 刻度 线 也 无 刻度 标签 、 右 图 : 使 用 breaks=NULL 
要 移 除 刻度 线 、 刻 度 标签 和 网 格 线 ， 将 breaks 设置 为 NULL 即 可 〈 见 图 8-14 右 图 ): 


p+ Scale y_continuous (breaks=NULL) 
这 种 方法 仅 对 连续 型 坐标 轴 有 效 ; 如 果 像 8.4 节 中 那样 使 用 limits 从 类 别 型 坐标 轴 上 
移 除 项 目 ， 则 含有 对 应 值 的 数据 将 完全 不 被 显示 。 
讨论 
事实 上 ， 共 有 三 种 项 目 可 以 控制 : 刻度 标签 、 刻 度 线 和 网 格 线 。 对 于 连续 型 坐标 轴 ， 
ggplot () 通常 会 在 每 个 breaks 值 的 位 置 放 置 刻 度 线 、 刻 度 标签 和 主 网 格 线 。 对 于 类 
别 型 坐标 轴 ， 这 些 元 素 则 出 现在 每 个 1imits 值 的 位 置 。 
我 们 可 以 独立 控制 每 条 坐标 轴 上 的 刻度 标签 。 但 是 ， 刻 度 线 和 网 格 线 必须 同时 控制 。 
8.8 修改 刻度 标签 的 文本 
问题 
如 何 修改 刻度 标签 的 文本 ” 
方法 


考虑 图 8-15 中 的 散 点 图 ， 身 高 〈 变 量 heightIn) 是 以 英寸 的 数值 表示 的 : 


library (gcookbook) # 为 了 使 用 数据 集 











hwp <- ggplot (heightweight, aes (x=ageYear, y=heightIn)) + 
geom point() 


hwp 


要 像 图 8-15 右 图 一 样 任意 设 定 标签 ， 在 标 度 中 为 breaks 和 labels 赋值 即 可 。 其 中 的 
-个 标签 含有 一 个 换行 符 〈\n)， 意 为 让 ggplot () 在 那里 另 起 一 行 ; 


hwp + Scale y continuous (breaks=c (50, : g } 
labels=c ("Tiny", "Really\nshort", "Short", 


"Medium", "Tallish")) 
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图 8-15 左 图 : 自动 绘制 刻度 标签 的 散 点 图 ” 右 图 : 手动 指定 7 轴 刻 度 标签 的 散 点 图 


讨论 

除了 完全 任意 地 设置 标签 以 外 ， 更 常见 的 情况 是 数据 以 某 种 格式 存储 ， 而 我 们 希望 以 
另外 一 种 格式 显示 标签 。 举 例 来 说 ， 我 们 可 能 想 让 身高 变量 显示 为 英尺 和 英寸 的 格 
式 〈 像 5 6" 这 样 )， 而 不 是 仅仅 显示 一 个 英寸 数值 。 要 完成 这 项 任务 ， 我 们 可 以 定义 
一 个 格式 刷 〈formatter) 函数 ， 这 样 的 函数 可 以 读 入 数值 并 返回 相应 的 字符 串 。 例 如 ， 
以 下 函数 可 将 英寸 数值 转换 为 英 太 加 英寸 的 格式 : 


footinch formatter <- Eunction(x) 1 
foot <- floor (xX/::.) 
inch <- X 有 区 
return (paste (foot, "'", inch, 和 0 局) 


} 
下 面 是 此 函数 对 输入 值 56 一 64 的 返回 结果 ( 反 斜 杠 是 转 义 符 ， 用 来 区 分 字符 串 中 所 
含 的 引号 和 字符 串 本 射 的 定 界 引号 ): 

footinch formatter(  :,:) 

nar8\n" WaA'o\nn w& IONww WAIil\"™ wn5°0\n™ W511Nnn TI2NWR nr3\"" a bs 
现在 就 可 以 使 用 参数 1abels 把 我 们 的 函数 传递 给 标 度 了 〔 见 图 8-16): 

hwp + scale y_ continuous (labels=footinch formatter) 
在 图 中 ， 每 隔 五 英寸 放置 了 一 个 自动 生成 的 刻度 线 ， 但 是 对 于 这 个 数据 来 说 看 起 来 有 
些 古 怪 。 我 们 可 以 通过 指定 参数 breaks 让 ggplot () 每 隔 四 英寸 设置 一 条 刻度 线 取 而 
代 之 〈 见 图 8-16 右 图 ): 

hwp + scale y continuous (breaks=seq (15, ， 4), labels=footinch formatter) 
男 一 项 常见 任务 是 将 时 间 测 度 转 换 为 HH:MM:SS (时 :分 : 秒 ) 或 者 其 他 类 似 的 格式 。 
以 下 函数 可 以 读 入 分 钟 的 数值 并 将 它们 转换 为 这 种 格式 ， 同 时 舍 入 到 最 接近 的 秒 数 
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(也 可 以 按照 你 的 特殊 需要 来 自 定 义 ): 


timeHMS formatter <- function (x) { 
h <- floor (X/60) 
m <- floor (x $$% ) 
s <- Lound (EU* (x %% 1)) 








lab <= sprintf(" : - ”hs me 
lab <- gsub(" SE "rs aD) 
lab <- gsub("*0", "", Lab) 
return (lab) 
} 
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图 8-16 左 图 : 使 用 格式 刷 函 数 的 散 点 图 右 图 : 手动 指定 y 轴 breaks 的 散 点 图 
使 用 一 些 示例 数值 运行 它 会 得 到 : 

timeHMS formatter(c(.33, 30, PF ,60, ; )) 

"0:20" "50:00" "51:15"” "59:19" "1:00:00" "1:00:06" "2:10:14" 
随 ggplot2 安装 的 scales 包 自 带 了 一 些 内 建 的 格式 化 函数 : 


。 comma () 在 千 、 百 万 、 十 亿 等 位 置 向 数字 添加 逗号 ”。 

。 dollar() 添加 一 个 美元 符号 并 舍 入 到 最 接近 的 美 分 。 

。 percent () 乘 以 100， 舍 入 到 最 接近 的 整数 值 ， 并 添加 一 个 百 分 号 。 
。 scientific() 对 大 数字 和 小 数字 给 出 科学 记 数 法 表示 ， 如 3.30e+05。 


如 果 你 希望 使 用 这 些 函 数 ， 必 须 首先 使 用 1ibrary (scales) 加 载 scales 包 。 


8.9 ”修改 刻度 标签 的 外 观 


问题 
如 何 修改 刻度 标签 的 外 观 ? 


QD 即 英语 中 对 于 阿拉 伯 数 字 三 位 一 隔 的 记 法 。 一 一 译 者 注 
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方法 
在 图 8-17 左 图 中 ， 我 们 手动 设 定 了 较 长 的 标签 一 一 长 到 足以 互相 重 估 : 


bp <- ggplot (PlantGrowth, aes (x= roup, vyeloht)) F geom boxplot () + 
scale x discrete (breaks= cf 人 Ee 有 
1abels=c(" rm， "Treatment i", "Treatment 2")) 
bp 


要 将 文本 逆 时 针 旋 转 90”( 见 图 8-17 中 图 )， 只 需 使 用 : 


bp + theme (axis.text.x = element text (angle=30, hjust=l, vjust=.3)) 
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图 8-17 x 轴 的 刻度 标签 被 旋转 了 0”( 左 图 )、90”( 中 图 ) 和 30”( 右 图 ) 
将 文本 旋转 30”( 见 图 8-17 右 图 ) 可 以 占用 更 小 的 纵向 空间 ， 并 且 可 以 让 你 在 不 转 头 
的 情况 下 还 能 容易 地 阅读 : 

bp + theme (axis.text.x = element text (angle=30, hjust=1, vjust=1)) 
参数 njust 和 vjust 设置 了 横向 对 齐 〈 左 对 齐 / 居 中/ 右 对 齐 ) 和 纵向 对 齐 〈 顶 部 对 齐 / 
居中 /底部 对 齐 )。 


讨论 


除了 旋转 以 外 ， 其 他 的 文本 属性 ， 如 大 小 、 样 式 〈 粗 体 / 斜体 /常规 ) 和 字体 族 (如 
Times 或 Helvetica) 可 以 使 用 element text() wi 如 图 8-18 所 示 : 





bp + theme (axis.text.x = element text (family="Times", face="italic", 
colour="darkred", size=rel( 和 
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8-18 手动 指定 外 观 的 x 轴 刻 度 标签 
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在 本 例 中 ，size (文字 大 小 ) 被 设 为 rel (0.9) ， 意 为 当前 主题 基础 字体 大 小 的 0.9 倍 。 

这 些 命令 仅仅 控制 了 单个 坐标 轴 上 刻度 标签 的 外 观 ， 并 不 影响 其 他 坐标 轴 、 坐 标 轴 标 

签 、 整 体 的 标题 或 图 例 。 要 同时 控制 所 有 这 些 元 素 的 外 观 ， 可 以 使 用 主题 系统 ， 如 9.3 
节 中 所 讨论 的 那样 。 

另 见 

参见 9.2 节 以 了 解 更 多 关于 如 何 控制 文本 外 观 的 信息 。 


8.10 修改 坐标 轴 标 签 的 文本 


问题 

如 何 修改 坐标 轴 标 签 的 文本 ? 

方法 

使 用 xlab () 或 yYlab () 来 修改 坐标 轴 标 签 的 文本 〈 见 图 8-19): 
library (gcookbook) # 为 了 使 用 数据 集 


hwp <- ggplot (heightweight, aes (x=ageYear, y=heightIn, colour=sex)) + 
geom point() 





# 使 用 吏 认 的 坐 # 
hwp 
# 设置 坐标 轴 标 各 
hwp + XLab(" i rs") + ylab("Height in inches") 
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8-19 左 图 : 使 用 默认 坐标 轴 标 签 的 散 点 图 右 图 : 为 x 轴 和 y 轴 手 动 指定 了 坐标 轴 标 签 的 
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讨论 
默认 情况 下 ， 图 形 将 直接 使 用 数据 框 中 的 列 名 作为 坐标 轴 标 签 。 这 对 于 探索 数据 来 说 
可 能 还 好 ， 但 是 在 对 外 呈现 数据 时 ， 你 也 许 会 希望 使 用 更 具 描 述 力 的 坐标 轴 标 签 。 
除了 xlab() 和 ylab()， 也 可 以 使 用 labs () : 

hwp + labs(x = : rs", Y= "Height 2 
设置 坐标 轴 标 签 的 男 一 种 方法 是 在 标 度 中 指定 ， 就 像 这 样 : 

hwp + scale x continuous (name=" f rs") 
这 种 方法 看 起 来 可 能 有 点 别扭 ， 不 过 可 能 在 你 同时 设 定 标 度 的 其 他 属性 〈 如 刻度 线 位 
置 、 值 域 等 ) 时 会 比较 有 用 。 
当然 ， 这 种 方法 同样 适用 于 其 他 的 坐标 轴 标 度 ， 如 scale_y_continuous () 、scale_ 
x_discrete() 等 。 
还 可 以 使 用 \n 来 添加 换行 ， 如 图 8-20 所 示 : 


hwp + Scale x Continuous (name="? rs)") 
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图 8-20 ” 含 一 个 换行 的 x 轴 标 签 


8.11 移 除 坐标 轴 标 签 


问题 
如 何 移 除 某 条 坐标 轴 的 标签? 


154 第 8 章 


方法 
对 于 x 轴 标 签 ， 使 用 theme (axis.title.x=element blank())。 对 于 了 轴 标 签 ， 针 对 
axis.title.y 做 同样 处 理 。 


我 们 将 在 本 例 中 隐藏 x 轴 标签 〈 见 图 8-21): 


p <- ggplot (PlantGrowth, aes (x=group, y=weight)) + geom boxplot() 


p + theme (axis.title.x=element blank()) 








T 1 T 
ctrl trt1 trt2 


1 T 1 
ctrl trti trt2 














图 8-21 左 图 : 使 用 element_blank() 处 理 的 x 轴 标 签 ” 右 图 : 将 标签 设 为 "" 


讨论 
某 些 坐 标 轴 标 签 对 于 上 下 文 来 说 是 元 余 的 或 者 是 显而易见 的 ， 因 此 并 不 需要 显示 。 在 
这 个 示例 中 ，x 轴 表示 变量 group， 但 是 这 一 点 可 以 很 明显 地 从 上 下 文 看 出 来 。 类 似 地 ， 
如 果 y 轴 在 每 个 刻度 标签 上 都 标注 kg 千克 ) 或 类 似 的 单位 ， 则 坐标 轴 标 签 “weight” 
就 没有 必要 显示 了 。 
移 除 坐标 轴 标 签 的 另 一 种 方法 是 将 其 设 为 一 个 空 字 符 串 。 但 如 果 以 这 种 方式 去 做 ， 那 
么 图 中 将 仍 为 文本 留 出 空间 ， 如 图 8-21 右 图 所 示 : 

p + xlab (ww) 
当 你 使 用 theme () 来 设置 axis.title.x=element blank() 时 ，x 或 了 标 度 的 名 称 是 不 
会 改变 的 ， 只 是 这 样 不 会 显示 文本 而 且 不 会 为 其 留 出 空间 。 当 你 设置 标签 为 "" 时 ， 
标 度 的 名 称 就 改变 了 ， 并 且 实 际 上 显示 了 〈 空 白 的 ) 文本 。 


8.12 ”修改 坐标 轴 标 签 的 外 观 


问题 
如 何 修改 坐标 轴 标 签 的 外 观 ? 
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方法 
要 修改 x 轴 标 签 的 外 观 〈 见 图 8-22) ， 使 用 axis.title.x 即 可 : 


library (gcookbook) # 为 了 使 用 数据 集 
hwp <- ggplot (heightweight, aes (x=ageYear, y=heightIn)) + geom point () 


hwp + theme (axis.title.x=element text (face="italic", colour="darkred", size=14)) 
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8-22 ” 自 定义 外 观 的 x 轴 标 签 


讨论 
对 于 轴 标 签 来 说 ， 有 时 不 对 文本 进行 旋转 会 比较 有 用 ， 如 图 8-23 左 图 所 示 。 标 签 中 
的 \n 表示 另 起 一 行 : 


hwp + ylab ("Height\n(inches)") + 
theme (axis.title.y=element text (angle=0, face="italic", size=14)) 


当 调 用 element_text () 时 ， 默 认 的 角度 是 0， 所 以 如 果 设 置 了 axis.title.y 但 没有 
指定 这 个 角度 ， 它 将 以 文本 的 顶部 指向 上 方 的 朝向 显示 。 如 果 修 改 了 axis.title.y 
中 的 其 他 任何 属性 并 且 希 望 它 以 正常 朝向 ， 即 旋转 90" 显示 ， 则 必须 手动 指定 这 个 角 
度 〈 见 图 8-23 右 图 ): 


hwp + Ylab("HeightNn (inches)") + 
theme (axis.title.y=element text (angle=90, face="italic", colour="darkred", 
size=14)) 
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8-23 左 图 : angle=0 的 y 轴 标签 ” 右 图 : angle=90 的 y 轴 标签 


另 见 
参见 9.2 节 以 了 解 更 多 关于 如 何 控制 文本 外 观 的 信息 。 


8.13 沿 坐 标 轴 显示 直线 


问题 

如 何 沿 x 轴 和 ?y 轴 显示 直线 ， 但 不 在 图 形 的 另 两 侧 显 示 ? 
方法 

使 用 主题 设置 中 的 axis.line( 见 图 8-24): 


library (gcookbook) # 为 了 使 用 数据 集 
Pp <- ggplot (heightweight, aes (x=ageYear, y=heightIn)) + geom point() 


P + theme(axis.line = element line(colour=" k")) 





heightin 
heightln 





14 16 12 14 16 
ageYear ageYear 











图 8-24 左 图 : 含 坐 标 轴线 的 散 点 图 右 图 : 使 用 theme bw() 时 ， 需 将 panel.border 也 设 为 
空白 
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讨论 
如 果 你 最 初 使 用 的 主题 在 绘图 区 域 的 周围 就 有 一 条 边 ( 如 theme bw() )， 则 需要 
重 置 参数 panel.border( 见 图 8-24 右 图 ): 


P + theme bw() 十 
theme (panel .border = element blank()， 
axis.line = element line (colour= ) ) 


如 果 边 界线 比较 粗 ， 则 它们 的 末端 将 仅 会 部 分 地 重 辣 ( 见 图 8-25 左 图 )。 要 让 它 
全 重 厂 ( 见 图 8-25 右 图 )， 设 置 lineend="square" 即 可 : 


# 对 于 较 粗 的 线条 ， 只 有 一 半 重 得 
DB + theme bw() + 
theme (Panel.border = element _ blank()， 
axis.line = element line(colour= / Size=#) 


p + theme bw() + 
theme (panel .border = element blank()， 


axis,.line = element line (colour=" / Size=*, lineend= | 
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图 8-25 左 图 : 对 于 粗 线条 ， 未 端 不 会 完全 重 区 ” 右 图 : 使 用 lineend="squaren 今 其 完全 重合 


万 见 
关于 主题 系统 工作 原理 的 更 多 信息 ， 参 见 9.3 节 。 


8.14 ”使 用 对 数 坐标 轴 


问题 
如 何在 一 幅 图 上 使 用 对 数 坐 标 轴 ? 
方法 


使 用 scale x 1og10() 和 /或 scale y logl10() ( 见 图 8-26): 
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library (MASS) # 为 了 使 用 数据 集 
# 基本 图 形 


p <- ggplot (Animals, aes (x=body, y=brain, label=rownames (Animals))) + 
geom text (Size= ) 
P 


# 使 用 对 数 x 标 度 和 对 数 y 标 度 
P + scale x 10g10() + scale y 1og10 1() 





图 8-26 左 图 : 使 用 线性 标 度 坐 标 轴 展 示 呈 指数 分 布 的 数据 右 图 : 使 用 对 数 坐 标 轴 


讨论 

使 用 对 数 坐 标 轴 时 ， 视 觉 上 某 段 给 定 的 距离 表示 着 常数 倍 的 比例 改变 ， 举 例 来 说 ，》 
轴 上 每 增加 1 厘米 可 能 表示 数量 乘 以 10。 相 对 而 言 ， 使 用 线性 坐标 轴 时 ， 视 觉 上 某 段 
给 定 的 距离 表示 着 常数 单位 数量 的 改变 ; 每 增加 1 厘米 可 能 表示 数量 上 增加 了 10。 


某 些 数据 集 在 x 轴 上 是 呈 指 数 分 布 的 ， 而 另 一 些 则 是 在 > 轴 上 呈 指 数 分 布 〈 或 者 两 轴 
皆 是 )。 例 如 ，MASS 库 中 的 Animals 数据 集 包 含 了 各 类 哺乳 动物 平均 脑 质量 (单位 为 g) 
和 体重 (单位 为 kg) 数据 ， 还 加 入 了 若干 种 恐龙 的 数据 作为 对 照 : 


Animals 

body brain 
Mountain beaver 1.350 8.1 
Cow 465.000 423.0 
Grey wolf 36.330 119.5 
Brachiosaurus 87000.000 154.5 
Mole 0.122 3.0 
Pig 192.000 180.0 


如 图 8-26 所 示 ， 我 们 可 以 绘制 一 幅 散 点 图 来 对 脑 质 量 和 体重 之 间 的 关系 进行 可 视 化 。 
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在 使 用 默认 的 线性 标 度 坐标 轴 时 ， 我 们 很 难 更 好 地 理解 这 幅 图 。 由 于 几 种 大 型 动物 的 
存在 ， 其 余 的 动物 都 被 挤 到 了 左下 角 一 一 这 让 老鼠 (mouse) 与 三 角 龙 (triceratops) 
看 起 来 几乎 没有 区 别 ! 这 就 是 一 个 数据 在 两 条 坐标 轴 上 均 呈 指数 分 布 的 例子 。 
关于 将 刻度 线 放 到 何 处 的 问题 ，ggplot2 会 试 着 做 出 明智 的 选择 ， 但 是 如 果 你 不 喜欢 这 
些 刻 度 ， 那 么 可 以 通过 指定 breaks (也 可 再 额外 指定 labels) 来 修改 它们 。 在 这 个 
示例 中 ， 自 动 生成 刻度 线 的 间距 较 理 想 的 间距 更 远 。 针 对 y 轴 的 刻度 线 ， 我 们 可 以 像 
下 面 这 样 获得 一 个 含有 从 10" 到 10 的 10 的 各 次 窜 的 向 量 : 

~“{0:3) 

1 10 100 1000 
x 轴 刻 度 线 的 工作 原理 相同 ， 不 过 由 于 这 里 的 值 域 过 大 ，R 会 自动 将 输出 格式 化 为 科 
学 记 数 法 的 形式 : 

~(-1:5) 

le-01 le+00 le+01 le+02 le+03 le+04 le+05 
之 后 我 们 就 可 以 使 用 这 些 值 作为 分 割 点 了 ， 如 图 8-27 左 图 所 示 : 


p+ Scale x 10g10 (breaks=1i0^(-1:5)) + scale y 1og10 (breaks=10^ (0:3) 





1000 -~ 107- 


100- es 10>- 一 


| 
| 
| 
| 


| "| | | \ ' ' 1 由 六 
01 1e+00 18e401 te+02 e+r09 Te+04 1ev05 10 10 10' 10° 10° 10” 10° 
body body 


8-27” 左 图 :x 轴 和 y 轴 取 以 10 为 底 对 数 的 散 点 图 ， 并 手动 指定 了 刻度 的 位 置 ” 右 图 : 指数 
表示 的 刻度 标签 


要 让 刻度 标签 转 而 使 用 指数 记 数 法 〈 见 图 8-27 右 图 )， 只 要 使 用 scales 包 中 的 函数 
trans_ format () 即 可 : 











library (scales) 


p+ Scale x 1l0g10 (breaks=i.^(-1:5), 
labels=trans format ("loogl0", math format (1°^.x))) + 
scale y lo0og10 (breaks=; ^(° :7), 
labels=trans format ("logl0", math format (20^.x) )) 


160 第 8 章 


使 用 对 数 坐标 轴 的 另 一 种 方法 是 ， 在 将 数据 映射 到 x 和 ?坐标 之 前 ， 先 对 其 进行 变换 
( 见 图 8-28)。 从 技术 上 讲 ， 坐 标 轴 仍 然 是 线性 的 一 一 它 表 示 对 数 变换 后 的 数值 : 


ggplot (Animals，aes(x=1og10 (body) ，yY=1og10 (brain), label=rownames (Animals))) + 
geom text (size=’) 
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图 8-28 ”映射 到 x 轴 和 y 轴 之 前 先进 行 对 数 变换 再 绘图 


上 例 中 仅 使 用 了 一 个 logw 变换 ， 不 过 使 用 其 他 的 变换 也 是 可 以 的 ， 如 以 2 为 底 的 对 数 
变换 和 自然 对 数 变换 ， 如 图 8-29 所 示 。 使 用 这 些 变换 有 点 复杂 一 一 scale_x_1og101() 
可 以 简写 ， 但 是 对 于 其 他 的 对 数 标 度 而 言 ， 我 们 需要 完整 地 定义 它们 ; 


library (scales) 


# 对 x 使 用 自然 对 数 变换 ， 对 y 使 用 log2 变换 
p+ scale x continuous (trans = log _ trans ()， 
breaks = trans breaks ("log", function (x) exp(x)), 
labels = trans format ("iog", math format(e^.x))) + 
scale y continuous (trans = 10g2 trans(), 
breaks = trans breaks ("log2", function(x) 2^x)， 
labels = trans_ format ("lo0g2", math format (2^.x))) 


我 们 也 可 以 只 使 用 一 条 对 数 坐 标 轴 。 这 种 做 法 对 于 呈现 金融 数据 往往 是 有 用 的 ， 因 为 
这 样 能 够 更 好 地 展示 出 按 比 例 的 变化 。 图 8-30 分 别 使 用 了 线性 和 对 数 的 y 轴 来 展示 苹 
果 公 司 的 股价 变化 情况 。 默 认 的 刻度 线 间 距 对 你 的 图 来 说 可 能 并 不 够 好 ， 可 以 在 标 度 
中 使 用 参数 breaks 来 设置 它们 : 
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library (gcookbook) # 为 了 使 用 数据 集 


ggplot (aapl, aes (x=date,y=adj price)) + geom line() 


ggplot (aapl, aes (x=date,y=adj price)) + geom line() + 
scale y lo0g10 (breaks=c (2,10,50,250)) 














8-30 上 图 : 使 用 线性 x 轴 和 对 数 y 轴 的 股价 图 “下 图 : 手动 设置 刻度 位 置 的 股价 图 
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8.15 ”为 对 数 坐标 轴 添 加 刻度 


问题 
如 何 为 对 数 坐 标 轴 添 加 间距 递减 的 刻度 线 ? 
方法 
使 用 annotation logticks () 〈 见 图 8-31 ): 


library (MASS)  # 为 了 使 用 数据 集 

library(scales) # 为 了 使 用 trans 和 format 相关 函数 

ggplot (Animals, aes (x=body, y=brain, label=rownames (Animals))) + 
geom text (Size=3) + 
annotation logticks() + 


scale x logl0 (breaks = trans breaks("1o0g10", function(x) 10^x)， 


labels = trans format ("lo0g10", math format (1.x))) + 
scale y logi0 (breaks = trans breaks("l10g10", function(x) LO^x)， 
labels = trans format ("lo0g10", math format (1,”.x))) 





8-31 ”刻度 线 间距 递减 的 对 数 坐标 轴 
讨论 
使 用 annotation_1logticks() 创建 的 刻度 线 事实 上 是 绘图 区 域 中 的 几何 对 象 。 在 每 个 
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10 的 察 次 处 有 一 条 长 刻度 线 ， 在 每 个 5 的 位 置 处 有 一 条 中 等 长 度 的 刻度 线 ?。 
你 可 以 使 用 theme_bw() 让 刻度 线 和 网 格 线 的 颜色 更 协调 一 些 。 

默认 情况 下 ， 次 网 格 线 在 视觉 上 出 现在 两 条 主 网 格 线 的 正中 间 ， 但 这 与 对 数 标 度 下 表示 
“5” 的 刻度 线 位 置 并 不 相同 。 要 让 两 者 位 置 相 同 ， 可 以 手动 设 定 标 度 的 minor_breaks 
参数 。 要 完成 这 里 的 任务 ， 我 们 需要 将 它们 设置 为 1og10 (5*10^ (minpow:maxpow) ) ， 也 
可 以 缩写 为 1og10(5) + minpow:maxpow〔 见 图 8-32): 























ggplot (Animals, aes (x=body, y=brain, label=rownames (Animals))) + 
geom text (size=’) + 
annotation logticks() + 
scale x logl0 (breaks = trans breaks("10g10"，function (x) ^x), 
labels = trans format ("lo0gi0", math format(10”.,x)), 
minor breaks = lo0g10(5) + -2:5) + 
scale y logl0 (breaks = trans breaks ("lo0g10", function (x) ^x); 
labels = trans format ("lo0gli0", math format (10^.x) )， 
minor breaks = 10910(5) + -133) + 
coord fixed() + 
theme_bw () 
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8-32 在 每 个 5 的 位 置 带 有 刻度 线 的 对 数 坐标 轴 ， 以 及 固定 的 坐标 比例 


男 见 
关于 控制 x 轴 和 >》 轴 缩 放 比例 的 更 多 知识 ， 参 见 8.5 节 。 


(D 这 里 所 谓 5 的 位 置 ， 是 指 前 一 个 长 刻度 线 对 应 数值 5 倍 的 位 置 。 一 一 译 者 注 
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8.16 绘制 环 状 图 形 


问题 
如 何 绘制 一 幅 环 状 图 形 *? 
方法 
使 用 coord polar () 。 对 于 本 例 ， 我 们 将 使 用 gcookbook 包 中 的 wind 数据 集 。 它 包 
含 了 某 一 天 中 每 隔 5 分 钟 的 风速 和 风向 样本 。 风 问 每 隔 15° 被 分 到 一 个 组 中 ， 风 速 则 
按 每 5 m/s 分 为 子 样本 : 

library (gcookbook) # 为 了 使 用 数据 集 

wind 


TimeUTC Temp WindAvg WindMax WindDir SpeedCat DirCat 
0 3.54 9.52 10.39 89 10-15 90 


5 3.52 9.10 9.90 92 5-10 90 
10 3.53 8.73 9.51 92 5-10 90 
2335 6.74 18.98 23.81 250 >20 255 
2340 6.62 17.68 22.05 252 >20 255 
2345 6.22 18.54 23.91 259 >20 255 


我 们 将 使 用 geom_histogram() 对 每 个 Speedcat 和 Dircat 的 类 别 绘制 样本 数量 的 计 
数值 ( 见 图 8-33)。 我 们 将 binwidth 设置 为 15 以 使 直方 图 的 origin 开始 于 -7.5 的 位 
置 ， 这 样 每 个 扇形 就 会 居中 于 0、15、30 等 位 置 : 
ggplot (wind, aes (x=DirCat, fill=SpeedCat)) + 
geom histogram(binwidth=}i5, origin=- )】 击 
coord polar() + 
scale x continuous (limits=c (0, )) 
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8-33” 极 坐标 图 


QD circular graphh， 在 这 里 作者 特 指 极 坐标 图 。 一 一 译 者 注 
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讨论 
使 用 极 坐标 图 时 要 小 心 ， 因 为 这 种 图 形 会 扭曲 对 数据 的 感知 。 本 例 中 ， 在 210° 的 位 置 有 
15 个 风速 为 15-20 的 观测 以 及 13 个 风速 大 于 20 的 观测 ， 但 是 对 图 形 匆匆 一 敬 时 ， 看 起 来 
好 像 风 速 大 于 20 的 观测 更 多 一 些 。 而 且 还 存在 三 个 风速 10-15 的 观测 ， 它 们 却 几乎 不 可 见 。 


在 这 个 例子 中 ， 我 们 可 以 通过 反 转 图 例 、 使 用 不 同 的 调 色 板 、 添 加 外 框 线 以 及 将 分 割 
点 设置 为 某 些 更 熟悉 的 值 的 方式 ， 让 图 形 稍微 美观 一 些 〈 见 图 8-34): 


ggplot (wind, aes (x=DirCat, fill=SpeedCat)) + 
geom histogram (binwidth=]15, origin= 7 Colour="i K"; SiZe=.20) 二 
guides (fill=guide legend (reverse=TRUE)) + 
coord polar() + 
Scale x continuous (limits=c(), ), breaks=seq(', , by=“°), 
minor breaks=seq(0, , by=15)) + 
scale fill brewer() 
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图 8-34 ”使 用 不 同 颜色 和 分 割 点 的 极 坐标 图 


使 用 参数 start 设置 图 形 起 始 的 角度 可 能 也 是 有 用 的 ， 特 别 是 当 我 们 使 用 一 个 离散 型 
变量 映射 为 角度 (theta) 时 ”。 起 始 角度 的 值 以 弧度 计 ， 如 果 你 知道 要 调整 的 角度 ， 则 
必须 将 它 转 换 为 弧度 : 


coord polar (start= # pi / ) 
极 坐 标 可 与 其 他 几何 对 象 搭 配 使 用 ， 包 括 线 和 点 。 在 使 用 这 些 几何 对 象 时 有 一 些 重要 


的 问题 要 牢记 于 心 。 首 先 ， 默 认 情况 下 ， 对 于 映射 到 (或 者 说 >) 的 变量 ， 最 小 值 将 
被 映射 到 中 心 ， 换 句 话说， 数据 中 的 最 小 值 将 被 映射 到 视觉 上 半径 为 0 的 位 置 。 你 可 


中 ”这 里 的 极 坐标 系 与 通常 的 定义 相同 ， 为 (x, 0)， 其 中 + 为 半径 ，0 为 角度 。 一 一 译 者 注 
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能 希望 一 个 为 0 的 数据 值 被 映射 到 半径 为 0 的 位 置 ， 但 是 为 了 确保 图 形 能 这 样 绘制 ， 
需要 设置 对 应 的 界限 〈limit)。 


下 一 个 问题 是 ， 在 使 用 一 个 连续 型 的 x〈 或 者 说 theta) 时 ， 数 据 中 的 最 小 值 和 最 大 值 是 重 
合 的 。 有 时 这 样 是 可 取 的 ， 有 时 却 不 是 。 要 修改 这 种 默认 行为 ， 你 需要 设置 对 应 的 界限 。 


最 后 ， 极 坐标 的 theta 值 不 能 环绕 一 周一 一 目前 还 无 法 制作 一 个 穿越 过 起 始 角 度 (通常 
为 垂直 方向 ) 的 几何 对 象 。 


我 们 将 使 用 一 个 示例 来 阐明 这 些 问 题 。 以 下 代码 根据 时 间 序 列 数据 集 mdeaths 创建 了 
一 个 数据 框 并 绘制 了 图 8-35 左 侧 的 图 形 : 
# 将 mdeaths 的 时 间 序 列 数 据 放 入 一 个 数据 框 


md <- data.frame (deaths = as.numeric (mdeaths), 
month = as.numeric(cycle (mdeaths) ) ) 


# 计算 每 个 月 的 平均 死亡 数量 
library (plyr) # 为 了 使 用 ddply() 函数 
md <- ddply (md， "month", summarise, deaths = mean (deaths) ) 


md 

month deaths 
1 2129.833 
2 2081.333 


11 1377.667 
12 1796.500 


# 绘 制 基本 图 形 
P <- ggplot (md, aes (x=month, y=deaths)) + geom line() + 
scale x continuous (breaks=I:12) 


# 使 用 coord polar 
p + coord polar() 





图 8-35 左 图 : 使 用 线 几何 对 象 的 极 坐标 图 (注意 半径 代表 的 数据 范围 ) 右 图 : 半径 表示 的 
数据 范围 从 0 开始 
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第 一 个 问题 是 ， 数 据 的 值 (范围 大 约 是 1000 ~ 2100) 被 映射 为 半径 ， 于 是 最 小 的 数 
据 值 就 处 于 半径 为 0 的 位 置 。 我 们 将 通过 设置 y (或 者 说 r) 的 界限 为 从 0 到 数据 中 的 
最 大 值 来 解决 这 个 问题 ， 如 图 8-35 右 图 所 示 : 

# 使 用 coord polar 并 将 y (r) 的 下 界 设置 为 0 

p + coord polar() + ylim(), max (md$deaths)) 
下 一 个 问题 是 最 小 和 最 大 的 month (月 份 ) 值 1 和 12 被 展示 在 了 同样 的 角度 上 。 我 
们 将 通过 设置 x 的 界限 为 0 一 12 来 解决 这 个 问题 ， 绘 制 的 图 形 为 图 8-36 左 图 (注意 
xlim() 的 使 用 覆盖 了 p 中 的 scale x_continuous ()， 所 以 它 将 不 再 为 每 个 月 份 显示 
分 割 点 ; 参见 8.2 节 以 了 解 更 多 信息 ): 

p + coord polar() + ylim(0, max (md$deaths)) + xlim(0, 1 
还 有 最 后 一 个 首尾 不 相 接 的 问题 。 要 解决 这 个 问题 ， 我 们 需要 修改 数据 框 ， 添 加 一 个 
月 份 为 0， 对 应 值 与 12 月 相同 的 行 。 这 将 使 得 起 点 和 终点 变 得 相同 ， 如 图 8-36 右 图 
所 示 ( 或 者 ， 我 们 可 以 添加 一 个 13 月 ， 而 非 0 月 ): 

# 通过 添加 一 个 值 与 12 的 值 相同 的 0 来 连接 曲线 

mdx <- md[md$month==12, ] 


mdx$month <- 
mdnew <- rbind (mdx, md) 


# 通过 使 用 名 1% ， 绘 制 与 之 前 相同 的 图 形 ， 只 是 使 用 的 数据 不 同 











P $+$ mdnew + coord polar() + ylim(0, max (md$deaths)) 
Diz 12 
2000 - 2000- 1 】 
1500 - 1500- 
310 2 
1000- 1000 - 
所 S00- 
中 一 
每 0 一 者 了 吾 0- 浊 3 
名 对 
8 本 
5 5 
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8-36 左 图 : theta 表示 的 x 值 从 0 到 12 的 极 坐标 图 右 图 : 通过 添加 一 个 虚拟 的 月 份 0 数 
据点 填补 了 缺口 


a 注意 运算 符 $+ 的 使 用 。 当 你 使 用 $+g 向 一 个 ggplot 对 象 添加 一 个 数据 
[人 框 时 ， 它 会 替换 ggplot 对 象 中 的 默认 数据 框 。 在 本 例 中 ， 它 将 p 中 默认 
3 的 数据 框 从 md 改 为 了 mdnew。 
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男 见 
参见 10.4 节 了 解 更 多 关于 反 转 图 例 方位 的 信息 。 
参见 8.6 节 以 了 解 更 多 关于 指定 哪些 值 将 拥有 刻度 线 〈 分 割 点 ) 和 刻度 标签 的 方法 。 


8.17 ”在 坐标 轴 上 使 用 日 期 

问题 

如 何在 坐标 轴 上 使 用 日 期 ? 

方法 

将 一 列 类 为 Date 的 变量 映射 到 x 轴 或 ? 轴 即 可 。 本 例 中 我 们 将 使 用 economics 数据 集 : 


4 烟 安 闽 握 疆 术 
# 观 紧 歼 据 箔 本 


str (economics) 


'data.frame': 478 obs. of 6 variables: 

$ date : Date, format: "1967-06-30" "1967-07-31" ... 

$ pce : num 508 511 517 513 518 ... 

$ pop : int 198712 198911 199113 199311 199498 199657 199808 199920 ... 
$ psavert : num 9.8 9.8 9 9.8 9.7 9.4 9 9.5 8.9 9.6 ... 

$ uempmed : num 4.5 4.7 4.6 4.9 4.7 4.8 5.1 4.5 4.1 4.6 ... 

$ unemploy: int 2944 2945 2958 3143 3066 3018 2878 3001 2877 2709 ... 


date 列 是 一 个 类 为 Date 的 对 象 ， 将 其 映射 到 x 所 得 的 结果 如 图 8-37 所 示 : 


ggplot (economics, aes (x=date, y=psavert)) + geom line() 





15- 


下 ' 
1970 1980 1990 2000 
date 











图 8-37 在 x 轴 上 显示 日 期 

讨论 

ggplot2 可 以 处 理 两 类 时 间 相 关 的 对 象 : 日 期 对 象 〈 类 为 Date 的 对 象 ) 和 日 期 时 间 对 
象 〈 类 为 PoSIXt 的 对 象 )。 两 类 对 象 的 区 别 是 ，Date 对 象 表示 的 是 日 期 ， 分 辨 率 为 一 
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天 ， 而 POSIXt 对 象 则 表示 时 刻 ， 拥 有 精确 到 秒 的 小 数 部 分 的 分 辨 率 。 


设置 分 割 点 与 数值 坐标 轴 的 方式 类 似 一 一 主要 的 不 同 在 于 设置 所 要 使 用 的 日 期 序列 。 
这 里 我 们 将 使 用 economics 数据 集 从 1992 年 年 中 到 1993 年 年 中 的 一 个 子 集 。 如 果 未 
指定 分 割 点 ， 则 将 自动 选择 ， 如 图 8-38 上 图 所 示 ; 

# 取 economics 的 一 个 子 集 


econ <- subset (economics, date >= as.Date("1992-05-01") & 
date < as.Date("1993-06-01")) 


并 基本 图 形 一 一 不 指定 分 割 点 


p <- ggplot (econ, aes (x=date, y=psavert)) + geom line() 





图 8-38 上 图 : 使 用 默认 的 x 轴 分 割 点 ”下 图 : 使 用 指定 的 分 割 点 


分 割 点 可 使 用 函数 seq() 来 创建 ， 给 定 起 始 和 终止 日 期 和 一 个 步 长 区 间 〈 见 图 8-38 下 
图 ) 即 可 : 
# 指定 一 个 日 期 向 量 为 分 割 点 


datebreaks <- seql(las.Date("1992-06-0i"), as.Date("1993-06-01"), by="2 month") 


# 使 用 分 割 点 并 旋转 文本 标签 
P + scale x date (breaks=datebreaks) + 
theme (axis.text.x = element text(angle=30，hjust=1)) 


中 在 R 中 使 用 8OSn 可 以 表示 带 有 小 数 部 分 的 秒 数值 ， 更 多 细节 详 见 ?strptime 中 的 说 明 。 一 一 译 者 注 
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注意 ， 这 里 分 割 点 (标签 的 格式 发 生 了 改变 ， 可 以 通过 使 用 scales 包 中 的 date_ 
format () 函数 来 指定 格式 。 这 里 我 们 将 使 用 "%Y %b"， 结 果 的 格式 类 似 于 “1992 
Jun”， 如 图 8-39 所 示 ”: 

library (scales) 


P +-scale x date (breaks=datebreaks, labels=date format ("$Y $b")) + 
theme (axis.text.x = element text(angle=30，hjust=1)) 





8-39 ”指定 了 日 期 格式 的 折线 图 


常用 的 日 期 格式 选项 列 于 表 8-1 中 。 它 们 应 被 放 入 一 个 字符 串 中 传递 给 date_ 
format ()， 然 后 这 些 格式 说 明 符 就 会 被 合适 的 值 所 替换 。 举 例 来 说 ， 如 果 你 使 用 "%B 
sd，%Y"， 所 得 的 标签 将 类 似 于 “June 01, 1992”。 


表 8-1 日 期 格式 选项 


SY 含 世纪 的 年 份 (2012) 

$y 不 含 世纪 的 年 份 (12) ” 

Sm 十 进 制 数 表示 的 月 份 (08) 

$b 当前 区 域 设置 (locale) 的 月 份 名 缩写 (Aug) 

$B 当前 区 域 设 置 的 月 份 名 全 称 (August) 

gd 十 进 制 数 表示 的 月 份 中 的 日 期 (04) 

$U 十 进 制 数 表示 的 一 年 中 的 第 几 周 ， 星 期 日 作为 每 周 的 第 一 天 (00-53) 
SW 十 进 制 数 表示 的 一 年 中 的 第 几 周 ， 星 期 一 作为 每 周 的 第 一 天 (00-53) 
gw 星期 几 (0-6， 星 期 日 为 0) 

ga 星期 几 的 缩写 名 (Thu) 

$A 星期 几 的 全 称 〈(Thursday) 


中 中 文 (系统 ) 的 日 期 时 间 格 式 下 ， 输 出 结果 的 格式 将 为 “1992 6 月 ”。 要 显示 为 此 处 的 英文 格式 ， 使 
用 Sys.setlocale() 修改 环境 变量 LC_TIME 即 可 。 详 见 http://cos.name/cn/topic/109881。 关 于 区 域 设 置 
的 更 多 说 明 ， 请 参见 下 文 。 一 一 译 者 注 
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以 上 选项 中 的 一 部 分 依赖 于 计算 机 的 区 域 设置 (locale)。 月 份 和 日 期 在 不 同 的 语言 中 
会 有 不 同 的 名 称 〈 本 示例 是 使 用 美式 区 域 设 置 生成 的 )。 可 以 使 用 Sys.setlocale () 
来 修改 区 域 设 置 。 例 如 ， 以 下 代码 会 将 日 期 的 格式 修改 为 使 用 意大利 的 区 域 设置 : 


# Mac 和 Linux 


Sys. setlocale ("LC TIME", "it IT.UTF-8") 
# Windows 
Sys.setlocale ("LC TIME", "italian") 


注意 ， 区 域 的 名 称 可 能 视 平台 的 不 同 而 有 所 区 别 ， 并 且 你 的 计算 机 必须 支持 这 些 在 操 
作 系 统 层面 已 经 安装 的 区 域 设置 。 


另 见 
参见 ?Sys.setlocale 了 解 更 多 关于 如 何 设 定 区 域 设置 的 信息 。 
参见 ?strptime 以 了 解 关于 如 何 将 字符 串 转换 为 日 期 以 及 格式 化 日 期 输出 的 信息 。 


8.18 在 坐标 轴 上 使 用 相对 时 间 


问题 
如 何在 坐标 轴 上 使 用 相对 时 间 ? 


方法 

时 间 值 通常 以 数字 的 形式 存储 。 举 例 来 说 ， 钟 表 上 的 时 刻 能 够 以 一 个 表示 小 时 的 数字 来 

存储 。 时 间 也 能 以 从 某 个 起 始 时 间 经 过 的 分 钟 数 或 秒 数 来 存储 。 在 这 些 情况 下 ， 你 应 当 

将 一 个 值 映 射 到 x 轴 或 ? 轴 上 ， 并 使 用 一 个 格式 刷 来 生成 合适 的 坐标 轴 标 签 〈 见 图 8-40): 
# 转换 时 间 序列 对 象 WWWusage 为 数据 杠 


www <- data.frame (minute = as.numeric (time (WHWusage)), 
users = as.numeric (WWHWusage)) 


# 定义 一 个 格式 刷 函 数 一 可 将 以 分 钟表 示 的 时 间 转 热 为 字符 串 
timeHM formatter <- function(x) { 
h <- floor (x/50) 
m <- floor (X $$ ) 
lab <- sprintf("sd:s02d"，h，m) ## 将 字符 束 格 式 化 为 HH:MM( 了 时 ; 分 ) 的 格式 
return (lab) 


# 默认 的 x 轴 
ggplot (www, aes (x=minute, y=users)) + geom line() 
# 使 用 格式 化 后 的 时 间 
ggplot (www, aes (x=minute, y=users)) + geom line() + 
Scale x continuous (name="time", breaks=seq (0, 7 by=i0), 
labels=timeHM formatter) 
Q@ 00 ~ 68 的 前 缀 将 被 补充 为 20，69 一 99 的 前 级 将 被 补充 为 9。 详情 参见 ?strptime 中 对 于 %y 的 说 
明 。 一 一 译 者 注 
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图 8-40 上 图 : x 轴 上 的 相对 时 间 ”下 图 : 使 用 格式 化 后 的 时 间 
讨论 
在 某 些 情况 下 ， 手 动 指定 分 割 点 和 标签 可 能 会 简单 一 些 ， 就 像 这 样 : 


scale x Poot inoue (beeakesel : 40, ‘ 4 )， 
labels= En We 和 :2 3 " “4 "le 入 nL] 20" 四 "1 4 ay》 


在 前 面 的 示例 中 ， 我 们 使 用 了 函数 timeHM formatter() 来 将 数值 时 间 〈 以 分 钟表 示 ) 
转换 为 一 个 类 似 于 "1:10" 的 字符 串 : 
timeHM formatter (c(0， 7 7 Mi 


0200w "0:50" "wOs51® "0359"” vw1i:00" "™2:10” "10;04" 


要 将 其 转换 为 HH:MM:SS 〈 时 时 : 分 分 : 秒 秒 ) 的 格式 ， 你 可 以 使 用 以 下 格式 刷 函 


timeHMS formatter <- function(x) { 
h <- floor(x/ ) 
m <- floor( (x/650) %% ) 


s <- round (x $$% 50) # 全 入 到 最 接近 的 秒 数 
lab <- sprintf ("02d:$02d:¥%02d"; h, m, s) # 入 全 北 字 竹 遇 HH:MM: SS 的 烙 式 
lab <- sub("*00:"，""，1ab) # 如 果 开 头 存在 00: 则 移 除 
lab <- sub("“0", "", lab) # 如 果 开头 存在 0 则 移 除 
return (lab) 

} 

使 用 一 些 示例 数值 运行 它 会 得 到 : 
timeHMS formatter(c(20， 7 由 和 7 7 ) ) 


WOs20™ "50:00” "51:15” "59:19"” "1200:00” "1:00:06" "2:10:14" 


d0 
| 


参见 15.21 节 以 了 解 关 于 如 何 转 换 时 间 序 列 对 象 为 数据 框 的 信息 。 
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控制 图 形 的 整体 外 观 





在 本 章 中 ， 我 们 将 讨论 如 何 控 制 ggplot2 图 形 的 整体 外 观 。 作 为 ggplot2 的 基础 ， 图 形 
语法 关注 的 是 如 何 处 理 和 展示 数据 一 一 它 并 不 关注 如 字体 、 背 景色 等 问题 。 然 而 当 我 
们 呈现 自己 的 数据 时 ， 很 可 能 希望 去 调整 这 些 元 素 的 外 观 。ggplot2 的 主题 系统 就 为 控 
制 非 数据 元 素 的 外 观 提供 了 可 能 。 我 们 在 前 一 章 中 提 到 了 主题 系统 ， 在 这 一 章 中 我 们 
将 更 加 详细 地 解释 它 的 工作 原理 。 


9.1 设置 图 形 标题 
问题 

如 何 设置 一 幅 图 形 的 标题 ? 
方法 


使 用 ggtitle() 设置 标题 ， 如 图 9-1 所 示 : 


了 使 用 数据 集 





library (gcookbook) # 世 
p <- ggplot (heightweight, aes (x=ageYear, y=heightIn)) + geom point () 


p + ggtitle ) 


本 pal in ) 
讨论 
使 用 ggtitle() 与 使 用 labs (title = " 标题 文本 ") 是 等 价 的 。 
如 果 你 希望 将 标题 移动 到 绘图 区 域内 部 ， 可 以 使 用 以 下 两 种 方法 之 一 ， 这 两 种 方法 都 
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需要 一 点 技巧 ( 见 图 9-2)。 第 一 种 方法 是 将 一 个 负 的 vjust 值 与 ggtitle() 配合 使 用 。 
这 种 方法 的 缺点 是 在 绘图 区 域 的 上 方 仍然 会 留 有 空白 的 空间 。 
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9-2 左 图 : 使 用 ggtitle() 和 一 个 负 的 vjust 值 绘制 的 标题 ( 注意 绘图 区 域 上 方 的 额外 空间 ) 
右 图 : 在 图 形 的 顶部 使 用 一 个 文本 注解 
第 二 种 方式 则 是 使 用 一 个 文本 注解 ， 设 定 其 x 的 位 置 为 x 值 域 的 中 间 ，y 的 位 置 为 
Inf， 这 样 就 会 将 其 置 于 绘图 区 域 的 顶部 。 这 种 方法 同时 需要 vjust 为 正 值 ， 以 使 文 
本 完全 落 入 绘图 区 域 : 

# 移动 标题 到 内 部 


p + ggtitlel(" ) 


theme (plot .title=element text (vjust = ) ) 
# 或 使 用 一 个 文本 型 注解 


P + annotate( ti", x=mean (range (heightweight$ageYear)), y=Inf, 
label= , Vjust= : Size=F) 
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9.2 修改 文本 外 观 


问题 

如 何 修改 图 形 中 文本 的 外 观 ? 

方法 

要 设置 如 标题 、 坐 标 轴 标 签 和 坐标 轴 刻 度 线 等 主题 项 目 〈theme item) 的 外 观 ， 使 用 


theme () 并 通过 element text () 设 定 对 应 项 目的 属性 即 可 。 举 例 来 说 ，axis.title. 
x 控制 着 x 轴 标 签 的 外 观 ， 而 plot .title 则 控制 着 标题 文本 的 外 观 〈 见 图 9-3 左 图 ): 


library (gcookbook) ## 为 了 使 用 数据 集 


# 基本 图 形 
p <- ggplot (heightweight, aes (x=ageYear, y=heightIn)) + geom point() 


# 主题 项 目 外 观 的 控制 


p + theme (axis.title.x=element text (size=’', lineheight=.°, family=" 7 
face="| i.italic”", colour="red")) 
p + ggtitle("sge and Height\nof : t ren"”) + 
theme (plot .title=element text (size=rel ( ), lineheight=.5, family= R 
face="t i.italic", Colour="red")) 


# rel (1.5) 表示 字体 大 小 将 为 当前 主题 基准 字体 大 小 的 1.5 倍 

# 对 于 主题 元 素来 说 ， 字 体 大 小 (size) 的 单位 为 磅 (pt) 
要 设置 文本 几何 对 象 〈 即 在 图 形 内 部 使 用 geom text () 或 annotate() 添加 的 文本 ) 
的 外 观 ， 只 需 设 置 其 文本 属性 即 可 。 举 例 来 说 〈 见 图 9-3 右 图 ): 


p + annotate ("text", X=1，yY=53，1abel=" -EXc"，sSize = family= 7 
fontface="bold.italic", Colour=" | 
p + geom text (aes (label=weightLb), size=:, family="7 ", colour=" ) 


# 对 于 文本 几何 对 象 ， 字 体 大 小 的 单位 为 毫米 (mm) 
讨论 
在 ggplot2 中 ， 文 本 项 目 分 为 两 类 : 主题 元 素 和 文本 几何 对 象 。 主 题 元 素 包 括 图 形 


中 的 所 有 非 数 据 元 素 : 如 标题 、 图 例 和 坐标 轴 。 文 本 几何 对 象 则 属于 图 形 本 身 的 一 
部 分 。 


控制 两 类 文本 项 目 属性 的 参数 略 有 不 同 ， 如 表 9-1 所 示 。 
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表 9-1 


主题 元 素 


主题 元 素 和 文本 几何 对 象 的 文本 属性 


eg ey 
Helvetica (无 衬 线 )、Times( 衬 线 )、Courier (等 宽 ) 























family family 
plain (普通 )、bold ( 粗 体 )、italic (斜体 )、bold.italic ( 粗 
face fontface 
斜体 ) 
colour colour 文字 颜色 (颜色 名 称 或 "#RRGGBB" 形式 的 十 六 进 制 颜色 代码 ) 
size size 字体 大 小 《主题 元 素 的 单位 是 磅 ， 几 何 对 象 的 单位 是 毫米 ) 
hjust hjust 横向 对 齐 : 0= 左 对 齐 ，0.5= 居中 ，1= 右 对 齐 
vjust [viust 纵向 对 齐 : 0= 底部 对 齐 ，0.5= 居中 ，1= 顶部 对 齐 
angle angle 旋转 角度 ， 单 位 为 度 
lineheight |lineheight | 行 间 距 倍 数 
70 2 是 > . 如 EL : 2 . 
ee eg 
65 a Rh 和 一 65 本 人 让 过 
三 ss 三 es 
和 
£0 Rg _ | . » 9 芋 60 Sy ~ s" . 站 e 
We Ca 
Ne 
55- 900 而 55 - DG 
四 人 省 去 Some text 
50 Ti 50 入 
1 14 16 
agexear 
Age and Height 
of Schoolchildren 70 
办 < 。 65 
ee +" . . . 可 cs 
5 
号 vv 
a0 Bn a ee 2 
| we, h eg . 
5 Ke ” be 2 人 
人 
50 "”， 50 
12 14 16 12 14 1 
ageYear ageYear 











图 9-3 ”从 左上 图 开始 逆 时 针 方 向 : 分 别 对 axis.title.x、plot.title、geom text () 和 
annotate ("text") 进行 了 设置 

相应 的 主题 元 素 已 列 于 表 9-2 中 ， 其 中 大 多 数理 解 起 来 都 很 简单 直观 。 图 9-4 中 展示 
子 一 部 分 。 
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表 9-2 ”theme () 中 控制 文本 外 观 的 主题 项 目 























元 素 名 称 A 对 人 be 4 站 说 明 
axis.title 双 轴 标签 的 外 观 
axis.title.x x 轴 标 签 的 外 观 
axis.title. yy 轴 标 签 的 外 观 
axis.ticks 双 轴 刻度 标签 的 外 观 
axis.ticks.x x 轴 刻 度 标签 的 外 观 
axis.ticks. 了 轴 刻 度 标签 的 外 观 
Legend ,title 图 例 标 题 的 外 观 
legend. text 图 例 项 文本 的 外 观 
plot.title 图 形 总 标题 的 外 观 
strip.text 双向 分 面 标签 的 外 观 
strip.text .x 横向 分 面 标签 的 外 观 
strip.text. 纵向 分 面 标签 的 外 观 
20 -=P .SE r RY US = = Wists0.5. WE Be Ys ER ne 
hjust=0.5 
05- hjust=0 











9-4 使 用 hjust 和 vjust 进行 对 齐 ， 并 使 用 lineheight 调整 行 间距 


9.3 ”使 用 主题 


问题 

如 何 使 用 预制 主题 来 控制 图 形 的 整体 外 观 ? 

方法 

要 使 用 预制 的 主题 ， 向 图 形 添 加 theme_bw() 或 theme grey() 即 可 ( 见 图 9-5): 


library (gcookbook) 站 为 了 使 用 数据 集 


# 基本 图 形 
P“- ggplot (heightweight, aes (x=ageYear, y=heightIn)) + geom _ point () 


# 《默认 的 ) 灰色 主题 
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p + theme grey() 


P + theme bw() 








要 
和 | 
和 a . 701 “ | 
be | 
. 人 上 . 要 | 
| 
i i 
本 
a os 
本 的 . 
.el dee sl 本 
c 人 湾 c ee sf oe 
BE a 
也 oo ?> 加 bP 
- se 2 E60- se® 
a %* 。. 3 了 可 
A DR 名 ee 
人 ve - 
ba 
守 
55 -ee 55- see 
& 
. 
-9 
50. 
三 T ,2 
14 16 12 14 16 
ageYear ageYear 





9-5 左 图 : 使 用 theme_grey()【〔 默认 主题 ) 绘制 的 散 点 图 “ 右 图 : 使 用 theme_bw () 绘制 


的 散 点 图 
讨论 


ggploB 中 主题 元 素 的 某 些 常用 属性 是 通过 theme () 来 控制 的 。 其 中 的 多 数 属性 ， 如 标题 、 图 
例 和 坐标 轴 ， 位 于 绘图 区 域 的 外 部 ， 但 另 一 些 则 位 于 绘图 区 域 的 内 部 ， 如 网 格 线 和 背景 色 。 


ggplot2 的 两 套 自 带 主题 是 theme _ grey() 和 theme bw() ， 不 过 你 也 可 以 创建 自己 的 专属 


主题 。 


你 可 以 自行 设置 两 个 内 置 主题 的 基本 字体 和 字体 大 小 (默认 的 基本 字体 为 无 宰 线 的 


Helvetica， 上 默认 大 小 为 12): 


P + theme greyl(base size=lt, base family="Timses") 


你 可 以 使 用 theme_set () 设置 当前 R 会 话 下 的 默认 主题 : 
# 为 当前 会 话 设置 默认 主题 
theme_ set (theme bw()) 


# 将 使 用 theme_bw() 
Pp 


# 将 默认 主题 重 署 回 theme_grey () 
theme set (theme grey() ) 


控制 图 形 的 整体 外 观 


179 





另 见 

要 修改 一 套 主题 ， 参 见 9.4 节 。 

要 创建 一 套 自 定义 主题 ， 参 见 9.5 节 。 
查看 ?theme 以 了 解 所 有 可 用 的 主题 属性 。 


9.4 修改 主题 元 素 的 外 观 


问题 
如 何 修改 主题 元 素 的 外 观 ? 


方法 


要 修改 一 套 主 题 ， 配 合 相应 的 element_xx 对 象 添加 theme () 函数 即 可 。element_xx 
对 象 包括 element_line、element_rect 以 及 element text。 下 列 代码 展示 了 许多 常 


用 主题 属性 的 修改 方法 〈 见 图 9-6): 


library(gcookbook) # 为 了 使 用 数据 集 


# 基本 图 形 


p <- ggplot (heightweight, aes (x=ageYear, y=heightIn, colour=sex)) + geom _ point () 


# 绘图 区 域 的 选项 


p+ theme ( 
panel.grid.major = element line(colour="red"), 
panel.grid.minor = element line(colour="red", linetype="dashed", size=(, 
panel.background = element rect (fill="1ightbiue"), 
panel .border = element rect (colour="blue", fill=NA, size=2)) 
拓 文本 项 目的 选项 
p + ggtitle("Ppiot tit ere") + 
theme ( 
axis,title.x = element text (colour="red", size=14), 
axis.text.x = element text (colour="hlue"), 
axis.title,y = element text (colour="red", size=14, angle = ez 
axis.text.y = element text (colour="blue"), 
plot.title = element text (colour="red", size=20, face="bold")) 


局 | :地 全 
# 图 例 选项 


p + theme ( 
legend.background = element rect (fill="gre ", Colour="red", size=i), 
legend.title = element text (colour="blue'", face="hbold", size=141), 
legend.text = element text (colour="red"), 
legend.key = element rect (colour="blue", size=0 .25)) 
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) ， 


# 分 面 选项 
p+ facet grid(sex ~ .) + theme( 
strip.background = element rect (fill="pink"), 
strip.text.y = element text (size=1%, angle=-90, face="bold")) 


# strip.text.x 同 理 ， 兵 不 过 是 针对 横向 分 面 














ageYear 3 ageYear 





图 9-6 ”从 左上 图 开始 顺 时 针 方 向 : 修改 绘图 区 域 、 图 例 、 分 面 和 文本 项 目的 主题 属性 


讨论 
如 果 你 希望 使 用 一 套现 成 的 主题 并 使 用 theme () 微调 其 中 的 一 些 部 分 ， 则 theme () 
必须 接 在 指定 主题 的 语句 之 后 。 否 则 ， 任 何 theme () 的 设 定 都 将 被 你 添加 的 主题 所 
还 原 : 

# 如 果 在 添加 一 套 完 整 的 主题 之 前 使 用 ，theme () 将 没有 效果 


p + theme (axis.title.x = element text (colour="red")) + theme bw!{) 


# 在 完整 的 主题 后 使 用 ，theme () 可 以 正常 工作 
P + theme_bw() + theme (axis.title.x = element text (colour="red", size= )) 


许多 常用 的 主题 属性 列 于 表 9-3 中 。 
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表 9-3 _ 在 theme() 中 控制 文本 外 观 的 主题 项 目 


名 称 ”元素 类 型 





























text 所 有 文本 元 素 element text () 
rect 所 有 矩形 元 素 element rect () 
line 所 有 线条 元 素 element line () 
axis.line 坐标 轴线 element line() 
axis.title element text () 
axis.title.x x 轴 标 签 的 外 观 element text() 
axis.title.y 》 轴 标签 的 外 观 element text() 
axis.text element text () 
axis.text .x x 轴 刻度 标签 的 外 观 element text 1() 
axis .text.y 了 轴 刻 度 标 签 的 外 观 element text () 
legend.background | 图 例 的 背景 element rect () 





legend. text 图 例 项 文本 的 外 观 element text () 














legend.title element text() 

legend.position "Left" ( 左 侧 )、"right"《〈 右 侧 )、 
"bottom" 《下方 )、"top" 《上 方 》， 
若 希望 放置 在 绘图 区 域内 部 ， 则 需 指 定 一 
个 双 元 素数 值 向 量 〈 关 于 放置 图 例 的 更 多 
知识 ， 参 见 10.2 节 ) 

panel.background | 绘图 区 域 背 景 element rect () 

panel .border element rect (linetype="dashed") 

panel.grid.major | 主 网 格 线 element line() 

panel.grid.major.x | 纵向 主 网 格 线 element line() 


panel.grid.major.y | 横向 主 网 格 线 element line() 


panel.grid.minor element line() 
panel.grid.minor.x | 纵向 次 网 格 线 
panel.grid.minor.y | 横向 主 网 格 线 









element line() 





element line() 





plot.background “| 整个 图 形 的 背景 element rect (fill = "white", 
colour = NA) 

plot.title 标题 文本 的 外 观 element text() 

strip.background | 分 面 标签 的 背景 element rect() 

strip.text mT element text () 





本 外 观 
strip.text.x 横向 分 面 标签 的 文本 外 观 |element text () 
strip.text.y 纵向 分 面 标签 的 文本 外 观 |element text () 
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9.5 创建 自 定义 主题 


问题 
如 何 创建 自 定义 主题 ? 


方法 
你 可 以 通过 向 一 套现 成 主题 添加 元 素 的 方式 创建 自 定义 主题 见 图 9-7): 


library (gcookbook) # 为 了 使 用 数据 集 


# 从 theme_bw() 入 手 ， 修 改 一 些 细节 
mytheme <- theme bw() + 
theme (text = element text (colour="red"), 
axis.title = element text (size = Zel ) ) ) 
# 基本 图 形 


p <- ggplot (heightweight, aes (x=ageYear, y=heightIn)) + geom point () 


# 使 用 修改 后 的 主题 绘图 
p + mytheme 
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9-7 ”一 套 修改 后 的 默认 主题 


讨论 
使 用 ggplot2， 不 仅 可 以 直接 利用 默认 主题 ， 也 可 以 修改 这 些 主 题 以 满足 你 的 需求 。 可 
以 添加 新 的 主题 元 素 或 者 修改 现 有 的 值 ， 并 将 修改 全 部 应 用 到 多 幅 图 形 或 者 只 应 用 到 
单 幅 图 形 上 。 
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另 见 
主题 的 可 修改 选项 列 于 9.4 节 中 。 


9.6 ”隐藏 网 格 线 


问题 
如 何 隐藏 图 中 的 网 格 线 ? 


方法 


主 网 格 线 ( 与 刻度 线 对齐 的 那些 ) 可 通过 panel.grid.major 来 控制 ， 次 网 格 线 (位 
于 主 网 格 线 之 间 的 那些 ) 则 通过 panel .grid.minor 来 控制 。 以 下 代码 将 二 者 同时 隐 


藏 ， 如 图 9-8 左 图 所 示 : 
# 为 了 使 用 数据 集 


library (gcookbook) # 


p <- ggplot (heightweight, aes (x=ageYear, y=heightIn)) + geom point () 


p + theme(panel.grid.major = element blank(), 
panel .grid.minor = element blank()) 











9-8 左 图 : 


讨论 


人 » > 5 bs 本 2 ee 党 . 
站 
2 人 EY -. ~ a 

无 任何 网 格 线 ”中 图 : 无 纵向 网 格 线 ” 右 图 : 无 横向 网 格 线 


通过 使 用 panel .grid.major.x、panel.grid.major.y、panel.grid.minor.x 和 panel. 
grid.minor.y， 我 们 也 可 以 只 隐藏 纵向 或 横向 网 格 线 ， 如 图 9-8 中 图 和 右 图 所 示 : 






# 隐藏 纵 疝 网 格 线 (与 x 轴 交 汇 的 那些 ) 
P + theme (Pane1.grid.major.x = element blank()， 
panel.grid.minor.x = element blank()) 


# 隐藏 横向 网 格 线 (与 y 者 交汇 的 那些 ) 
p + themel(lpanel.grid.major.y = element blank()， 
panel .grid.minor.y = element blank()) 
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图 例 


像 x 轴 或 y 轴 一 样 ， 图 例 也 是 一 类 引导 元 素 : 它 可 以 向 人 们 展示 如 何 将 视觉 上 的 (图 


形 ) 属性 映射 回 数据 本 身 。 


10.1 移 除 图 例 


问题 
如 何 从 一 幅 图 中 移 除 图 例 ? 
方法 


使 用 guides () ， 并 指定 需要 移 除 图 例 的 标 度 〈 见 图 10-1): 


# 基本 图 形 ( 含 图 例 ) 


p <- ggplot (PlantGrowth, aes(x=group, y=weight, fill=group)) + geom boxplot () 
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图 10-1 左 图 : 默认 外 观 ” 右 图 : 移 除 图 例 后 的 外 观 
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了 


# 移 除 标 度 fill 的 图 例 
p + guides (fil]=FALSE) 


讨论 
移 除 某 个 图 例 的 男 一 种 方式 是 在 对 应 标 度 中 设置 guide=FALSE。 这 样 做 得 到 的 输出 结 
果 将 与 上 述 代 码 完全 相同 : 

# 移 除 标 度 fi11 的 图 例 

P + scale fill discrete (guide=FALSE) 
还 有 一 种 移 除 图 例 的 方法 是 使 用 主题 系统 。 如 果 你 有 多 于 一 种 带 有 图 例 的 图 形 属性 映 
射 (例如 color 和 shape)， 这 样 做 将 会 移 除 所 有 图 例 : 

p + theme (legend.position="none") 
有 些 时 候 图 例 是 元 余 的 ， 或 者 图 例会 在 男 一 幅 和 当前 图 形 共 同 展示 的 图 形 中 提供 。 在 
这 种 情况 下 ， 从 一 幅 图 形 中 移 除 图 例会 比较 有 用 。 
在 本 例 中 ， 颜 色 提 供 了 和 x 轴 相 同 的 信息 ， 所 以 没有 必要 添加 图 例 。 还 可 以 注意 到 ， 
随 着 图 例 的 移 除 ， 绘 制 数据 的 区 域 也 随 之 变 得 更 大 。 如 果 你 希望 得 到 与 之 前 比例 相同 
的 绘图 区 域 ， 则 需要 调整 图 形 的 整体 尺寸 。 
当 某 个 变量 被 映射 到 图 形 属性 fi11 上 时 ， 上 默认 使 用 的 标 度 为 scale_fill discrete() 
(与 scale_fill_hue() 等 价 )， 这 会 将 不 同 的 因子 水 平 映射 到 色 环 上 均匀 分 布 的 颜色 
值 上 。 对 于 fi1l1 来 说 ， 也 有 其 他 的 标 度 可 用 ， 如 scale_fill manual () 。 如 果 你 要 
使 用 其 他 图 形 属性 的 标 度 ， 如 colour (针对 线 和 点 ) 或 shape〔 针 对 点 )， 则 必须 使 
用 合适 的 对 应 标 度 。 常 用 的 标 度 包括 : 


scale fill discrete!() 


scale fill hue() 
se。 Scale fill manual () 
。 Scale fill grey() 
。 Scale fill brewer() 


Scale colour discrete () 


scale colour hue () 


scale colour manual () 


scale colour grey1() 


scale colour brewer () 


Scale shape manual () 


。 scale linetype() 
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10.2 ”修改 图 例 的 位 置 


问题 

如 何 将 默认 处 于 右 侧 的 图 例 移动 到 其 他 位 置 ? 

方法 

使 用 theme (legend.position=...) 即 可 。 通 过 指定 位 置 参数 为 top、left、right 或 
bottom， 图 例 即 可 被 放置 在 顶部 、 左 侧 、 右 侧 或 底部 〈 见 图 10-2 左 图 ): 


p <- ggplot (PlantGrowth, aes (x=group, weight, fill=group)) + geom boxplot() + 
scale fill brewer (palette="Pastel2") 


p + theme (legend.position="top") 








rou ctrl trt1 trt2 - . 
group 印 orl 所 tnt 所 6.0 。 
5.5 -= 
活 一 一 
.5.0- 
5. 0.= 4.5= group 
.a ctrl 
4.0 - 
oa 扬 tt 
trt2 
55- a5 县 四 ， 后 
ctrl trt1 trt2 ctrl trt1 trt2 
group group 











10-2 左 图 : 位 于 顶部 的 图 例 ” 右 图 : 位 于 绘图 区 域内 的 图 例 

通过 指定 像 legend.position=c (1,0) 这 样 的 位 置 坐标 ， 图 例 亦 可 被 置 于 绘图 区 域内 
部 〈 见 图 10-2 右 图 )。 坐 标 空间 左下 角 为 原点 (0, 0)， 右 上 角 为 (1, 1)。 

讨论 

你 也 可 以 使 用 legend.justification 来 指定 图 例 框 的 哪 一 部 分 被 放置 到 legend. 


position 所 指定 的 位 置 上 。 默 认 情况 下 ， 图 例 的 中 心 (0.5, 0.5) 被 置 于 给 定 的 坐标 处 ， 
但 是 指定 一 个 不 同 的 点 往往 是 有 用 的 。 


举例 来 说 ， 以 下 代码 将 图 例 的 右 下 角 (1, 0) 置 于 绘图 区 域 的 右 下 角 (1, 0) : 


p + theme (legend.position=c(1,0), legend.justification=c(]1,0)) 
而 以 下 代码 则 会 将 图 例 的 右上 角 置 于 绘图 区 域 的 右上 角 ， 如 图 10-3 右 图 所 示 : 
P + theme(legend.position=c(},1), legend.justification=c(],1)) 
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10-3 左 图 : 位 于 右 下 角 的 图 例 右 图 : 位 于 右上 角 的 图 例 


在 绘图 区 域内 放置 图 例 时 ， 添 加 一 个 不 透明 的 边界 使 其 与 图 形 分 开 可 能 会 有 所 帮助 
( 见 图 10-4 左 图 ): 


p + theme (legend.position=c(,.65,.2)) + 


theme (legend.background=element rect (fill="white", colour="i | 
你 也 可 以 移 除 图 例 元 素 周 围 的 边界 以 使 其 融入 图 形 ( 见 图 10-4 右 图 ): 
p + theme (legend.position=c(.35,.2)) + 
theme (legend.background=element blank()) + # 移 除 整 体 的 边框 
theme (legend. key=element _ blank ()) # 移 除 每 个 图 例 项 目 周 围 的 边框 
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10-4 左 图 : 带 有 不 透明 背景 和 外 框 线 的 图 例 ” 右 图 : 不 含 青 景 和 外 框 线 的 图 例 


10.3 修改 图 例 项 目的 顺序 


问题 
如 何 修改 图 例 中 项 目的 顺序 ? 
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方法 
将 对 应 标 度 的 参数 limits 设置 为 理想 的 顺序 即 可 〈 见 图 10-5): 


# 基本 图 形 
p <- ggplot (PlantGrowth, aes (x=group, y=weight, fill=group)) + geom boxplot 1() 
Pp 


p> 


# 修改 项 目 版 序 











p+ scale fill diserete(limits=c ("trt1l", "trt2", "ctr1")) 

二 6.0 -~ ®. 

. = 
group 5.5- group 
刻 ct 三 鲜 tr 
围 ii 证 饼 trz 
白 trt2 4.5— | ctrl 

4.0— 
3.5- 1 1 1 3.5- 1 1 1 
ctrl trt1 trt2 ctrl trt1 trt2 
group group 














图 10-5 ” 左 图 : 默认 的 图 例 顺序 右 图 : 修改 后 的 顺序 


讨论 
要 注意 的 是 ,x 轴 上 项 目的 顺序 并 没有 改变 。 要 修改 这 个 顺序 ， 需 要 设置 scale_x_ 
discrete() 的 1imits 参数 (参见 8.4 节 )， 或 者 修改 数据 ， 使 其 拥有 一 个 不 同 的 因子 
水 平顺 序 (参见 15.8 节 )。 
在 上 例 中 ， 变 量 group 被 映射 到 了 图 形 属性 fi11 上 。 默 认 情 况 下 ， 这 将 会 使 用 scale_ 
fill discrete() (与 scale _ fill hue() 的 情况 相同 )， 将 不 同 的 因子 水 平 映 射 到 色 环 
上 均匀 分 布 的 颜色 值 上 。 然 而 ， 我 们 也 可 以 使 用 其 他 的 不 同 标 度 scale fill _xxx()。 
举例 来 说 ， 我 们 可 以 使 用 灰 度 调 色 板 《〈 见 图 10-6 左 图 ): 

Pp + Scale fill grey(start=.5; end=iy limits=c("trtl"; "trt2", " ™} 
或 者 使 用 RColorBrewer 中 的 调 色 板 〈 见 图 10-6 右 图 ): 

p + scale fill brewer (palette="Pastel2", limits=c("trtl"; "trt2", "ctrl")) 
前 述 所 有 示例 都 是 针对 图 形 属性 fi11 的 。 如 果 要 使 用 其 他 图 形 属性 的 标 度 ， 如 colour 
(针对 线 和 点 ) 或 shape〔 针 对 点 )， 则 必须 使 用 合适 的 对 应 标 度 。 常 用 的 标 度 包 括 : 


s Scale fill discrete() 
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。 Scale fil1_hue() 

。 Scale fill _ manual () 

。 scale fill grey() 

。 Scale fill brewer () 

es。 Scale colour discrete () 
。 Scale_colour_hue () 

e。 Scale colour manual () 


®。 scale colour grey() 





。 scale colour brewer() 
°° scale shape manual () 


。 scale linetype!() 
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10-6 左 图 : 使 用 灰 度 调 色 板 并 修改 顺序 右 图 : 使 用 RColorBrewer 中 的 调 色 板 


默认 情况 下 ， 使 用 scale fill discrete() 与 使 用 scale fill hue() 是 等 价 的 ， 这 
对 颜色 标 度 也 成 立 。 


另 见 
要 反 转 图 例 顺 序 ， 参 见 10.4 节 。 


要 修改 因子 水 平 的 顺序 ， 参 见 15.8 节 。 要 根据 其 他 变量 的 值 对 图 例 项 目 进行 排序 ， 参 
见 15.9 节 。 


10.4 反 转 图 例 项 目的 顺序 


问题 
如 何 反 转 图 例 中 项 目的 顺序 ? 
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方法 
添加 guides (fill=guide legend(reverse=TRUE) ) 以 反 转 图 例 的 顺序 ， 如 图 10-7 所 示 
(对 于 其 他 的 图 形 属性 ， 使 用 相应 图 形 属性 的 名 称 ， 如 colour 或 size 蔡 换 fill 即 可 ): 








# 基本 图 形 
p <- ggplot (PlantGrowth, aes (x=group, y=weight, fill=group)) + geom boxplot() 
Pp 
# 反 转 图 例 顺 序 
p + guides (fill=guide legend (reverse=TRUE)) 
6.0- 半 6.0- 
要 . 
5.5 "~ group 5.5.~ group 
二 鹿 cr 上 刻 rz 
.5.0- .5.0- 
® 二 rt 加 图 tnt 
人 三 
4.5- ju 4.5- 写 cm 
4.0- 4.0- 
3.5- i i i 3.5- i i i 
ctrl trtt trt2 ctrl trti tri2 
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10-7 左 图 : 默认 的 图 例 顺 序 “” 右 图 : 反 转 后 的 顺序 
讨论 
在 设 定 标 度 的 同时 也 可 以 控制 图 例 ， 如 下 所 示 : 


scale _ fill1_hue (guide=guide Legend (reverse=TRUE) ) 


10.5 ”修改 图 例 标题 


问题 

如 何 修改 图 例 标题 中 的 文本 ? 

方法 

使 用 函数 1abs () 并 设 定 fi11、colour、shape 或 任何 对 于 图 例 来 说 合适 的 图 形 属性 


的 值 ( 见 图 10-8): 


# 基本 图 形 
p <- ggplot (PlantGrowth, aes (x=group, y=weight, fill=group)) + geom boxplot () 
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# 设置 图 例 标 题 为 "Condition" 
p + labs (fill="Condition") 
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10-8 图 例 标题 被 设置 为 "Condition" 
讨论 

在 设 定 标 度 时 也 可 以 设置 图 例 标题 。 由 于 图 例 和 坐标 轴 均 为 引导 元 素 ， 这 样 做 与 设置 
x 轴 或 y 轴 标 题 的 原理 是 相同 的 。 

以 下 代码 与 上 述 代 码 效果 相同 : 


p+ scale fill discrete(name="Condition") 


如 果 有 多 个 变量 被 映射 到 带 有 图 例 的 图 形 属性 〈 即 除 x 和 y 以 外 的 图 形 属性 )， 可 以 分 别 设 
置 每 个 图 例 的 标题 。 在 本 例 中 ， 我 们 将 使 用 \n 向 其 中 一 个 标题 添加 一 个 换行 〈 见 图 10-9): 
library (gcookbook) # 为 了 使 用 数据 集 
# 绘制 基本 图 形 
hw <- ggplot (heightweight, aes (x=ageYear, y=heightIn, colour=sex)) + 
geom point (aes (size=weightLb)) + Scale size continuous (range=c (1, 4)) 


hw 


hw + labs (colour="Male/Female", size="Weight\ nds})") 


如 果 有 一 个 变量 被 分 别 映射 到 两 个 图 形 属性 ， 则 默认 会 生成 一 个 组 合 了 两 种 情况 的 图 例 。 
例如 ， 我 们 把 sex 同时 映射 到 shape 和 weight 上 ， 将 只 会 出 现 一 个 图 例 ( 见 图 10-10 左 图 ): 


hwl <- ggplot (heightweight, aes (x=ageYear, y=heightIn, shape=sex, colour=sex)) + 
geom point () 


hwl 
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图 10-9 左 图 : 使 用 原始 标题 的 两 个 图 例 “ 右 图 : 使 用 新 标题 的 图 例 


要 修改 图 例 标题 〈 见 图 10-10 右 图 )， 你 需要 同时 设置 二 者 的 标题 。 如 果 只 修改 其 中 一 
个 ， 则 会 得 到 两 个 分 离 的 图 例 〈 见 图 10-10 中 图 ): 
# 仅 修改 shape 的 标题 


hwl + labs (shape="Male/Female") 


# 同时 修改 shape 和 colour 的 标题 
hwl + labs (shape="Male/Female", colour="Male/Female") 
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图 10-10 左 图 : 一 个 变量 映射 到 shape 和 colour 时 的 默认 图 例 ”中 图 : 重 命名 了 shape 对 应 
的 图 例 标 题 “ 右 图 : 同时 重 命名 了 shape 和 colour 对 应 的 图 例 


我 们 也 可 以 使 用 函数 guides () 来 控制 图 例 标 题 。 这 样 做 虽然 有 点 喝 迪 ， 不 过 在 你 使 用 
它 来 控制 其 他 属性 的 时 候 会 比较 有 用 : 


p + guides (fill=guide legend (title="Condition")) 


10.6 ”修改 图 例 标 题 的 外 观 


问题 
如 何 修改 某 个 图 例 标题 文本 的 外 观 ? 
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方法 
使 用 theme (legend.title=element text () ) 〈 见 图 10-11 ): 
p <- ggplot (PlantGrowth, aes (x=group, y=weight, fill=group)) + geom boxplot() 





p + theme (legend.title=element text (face="italic", family="Times", colour="red", 
size=14)) 

6.0- 全 

. 

5.5- group 
起 后 ctrl 
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ctrl trt1 trt2 
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10-11 ” 自 定 义 图 例 标题 外 观 

讨论 

我 们 也 可 以 通过 guides () 来 指定 图 例 标题 的 外 观 ， 但 这 种 方式 有 点 嘿 嗪 。 以 下 代码 
与 上 述 代 码 效果 相同 : 


p + guides (fill=guide _ legend (title.theme= 
element text (face="italic", family="times", colour="red", size=14))) 


另 见 
参见 9.2 节 以 了 解 更 多 关于 如 何 控制 文本 外 观 的 信息 。 


10.7 移 除 图 例 标 题 

问题 

如 何 移 除 某 个 图 例 的 标题 ? 

方法 

添加 语句 guides (fill=guide legend (title=NULL) ) 可 以 从 图 例 中 移 除 标题 ， 如 图 10-12 


所 示 《〈 对 于 其 他 图 形 属性 ， 只 需 将 fi11 替换 为 相应 图 形 属性 的 名 称 ， 如 colour 或 size 
即 可 ): 
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ggplot (PlantGrowth, aes (x=group, y=weight, fill=group)) + geom boxplot() + 


guides (fill=guide legend (title=NULL)) 
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图 10-12 不 含 图 例 标题 的 箱 线 图 


讨论 


在 设 定 标 度 的 同时 也 可 以 控制 图 例 标题 。 以 下 代码 与 前 述 代码 效果 相同 : 


scale fill hue(guide = guide legend (title=NULL)) 


10.8 修改 图 例 标签 


问题 

如 何 修改 某 个 图 例 中 的 标签 文本 ? 

方法 

设置 标 度 中 的 labels 参数 即 可 〈 见 图 10-13 左 图 ): 


library (gcookbook) 坤 为 了 使 用 数据 集 


# 基本 图 形 


p <- ggplot (PlantGrowth, aes (x=group, y=weight, fill=group)) + geom boxplot() 


# 修改 图 例 标 签 


p + scale fill discrete (labels=c ("Control", "Treat 


讨论 


ment 1","Treatment 2")) 


注意 ,x 轴 的 标签 并 没有 改变 。 要 修改 它 ， 需 要 设置 scale x_discrete() 中 的 标签 
(参见 8.10 节 )， 或 者 修改 数据 让 其 拥有 不 同 的 因子 水 平 名 称 (参见 15.10 节 )。 
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10-13” 左 图 : 通过 默认 的 离散 型 标 度 手动 指定 了 图 例 标 签 ” 右 图 : 通过 其 他 标 度 手 动 指定 了 标签 


在 上 例 中 ， 变 量 group 被 映射 到 了 图 形 属性 fi11 上 。 默 认 情 况 下 ， 这 将 会 使 用 scale_ 
fill discrete()， 以 将 不 同 的 因子 水 平 映 射 到 色 环 上 均匀 分 布 的 颜色 值 上 (与 
scale fill hue() 的 情况 相同 )。 我 们 嫉 可 以 菩 用 其 他 fill 标 度 通过 相同 的 原理 设 定 
标签 。 举 例 来 说 ， 要 绘制 图 10-13 中 的 右 图 ， 只 


P + scale fill grey(start=,.5, end=], 
labels=c (" rol", "Treatment 1","Treatment 2")) 


如 果 同 时 修改 了 图 例 项 目的 顺序 ， 则 标签 会 依照 位 置 顺序 与 项 目 进行 匹配 。 在 本 例 
中 ， 我 们 将 修改 项 目的 顺序 ， 并 确保 以 相同 的 顺序 设置 标签 ( 见 图 10-14): 


P + scale fill discrete(limits=c(" 工人 人 











labels=c ("" tment 1", "Treatment 2", "Control")) 
6.0 - 局 
. 

5.5 一 group 
芋 | Treatment 1 
50 大 Teatment 2 

reatmen 

三 

4.5- 三 Control 

4.0 -~ 

3.5 -~ | 

ctrl trt1 trt2 
| group 








10-14 ”修改 了 图 例 标签 顺序 并 手动 指定 了 标签 (注意 x 轴 的 标签 和 顺序 并 未 改变 ) 


如 果 有 一 个 变量 被 分 别 映射 到 两 个 图 形 属性 ， 则 默认 会 生成 一 个 组 合 了 两 种 情况 的 图 
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例 。 如 果 希 望 修改 图 例 标签 ， 则 必须 同时 修改 两 种 标 度 中 的 标签 ; 否则 将 得 到 两 个 分 
离 的 图 例 ， 如 图 10-15 所 示 : 
# 基本 图 形 


P <- ggplot (heightweight, aes (x=ageYear, y=heightIn, shape=sex, colour=sex)) + 
geom point () 
p 


## 修改 一 个 标 度 中 的 标签 
p + scale shape discrete(labels=c ("Female", "Male")) 


# 同时 修改 两 个 标 度 中 的 标签 





P + scale shape discrete(labels=c ("Female", "Male")) + 
scale colour discrete(labels=c ("Female", "Male")) 
70- Rr 70- Rk 70- EL 
| < 4 二 泡 JE Sex 全 友 月 和 
pe ov yy 
A 
不 ry . A” pl 19 1 三 . 和 人 至 Pb "oe  。Femae 
~ bor - 
0-% i sm eo “ee sex 是 am- 本 * Male 
7 3 
* 4 
“里 ER ”a a Male ss- 
中 
| 0 站 党 se 
50- 50- 8- 一 ， 
12 14 16 12 14 16 12 14 16 
ageYear ageYear ageYear 














10-15 左 图 : 将 一 个 变量 映射 到 shape 和 colour 中 图 : 为 shape 指定 了 新 标签 ” 右 图 : 
同时 为 shape 和 colour 指定 了 新 标签 


其 他 含有 图 例 的 常用 标 度 包括 : 


。 Scale fill discrete() 
。 Scale fill hue() 

。 Scale fill manual () 

e。 Scale fill grey() 

® Scale fill brewer () 

。 scale colour discrete () 
。 scale colour hue() 

。 Scale colour manual () 
e Scale colour grey () 

es scale colour brewer () 
。 scale shape manual () 
es Scale linetype() 


默认 情况 下 ， 使 用 scale_fill _ discrete() 与 使 用 scale_fill hue() 是 等 价 的 ;这 
对 颜色 标 度 也 成 立 。 
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10.9 修改 图 例 标签 的 外 观 


问题 

如 何 修改 某 个 图 例 中 标签 的 外 观 ? 

方法 

使 用 theme (legend.text=element text ())〔 见 图 10-16): 


# 基本 图 形 
p <- ggplot (PlantGrowth, aes (x=group, y=weight, fill=group)) + geom boxplot() 


# 修改 图 例 标签 的 外 观 








p + theme (legend.text=element text (face="italic", family="Times", colour="red", 
size=14)) 
一 一 
6.0- © 
. 
5.5= group 
皇 鲜 cz/ 
.5.0— 
加 牙 wi/ 
> 
4.5- 刀 1/2 
4.0— 
3.5- I i 
ctrl trt1 trt2 
group 











图 10-16 ” 自 定 义 图例 标 签 外 观 


讨论 
我 们 也 可 以 通过 guides () 来 指定 图 例 标签 的 外 观 ， 虽 说 这 种 方式 有 点 策 抽 。 以 下 代 
人 码 与 上 述 代 码 效 果 相 同 : 

# 修改 fi11 对 应 图 例 标签 文本 的 外 观 


P + guides (fill=guide legend(1abel.theme= 
element text (face="italic", family="Times", colour="red", size=14))) 


另 
参见 9.2 节 以 了 解 更 多 关于 如 何 控制 文本 外 观 的 信息 。 


与 


站 
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10.10 使 用 含 多 行文 本 的 标签 


问题 

如 何 使 用 含有 多 于 一 行文 本 的 图 例 标签 ? 

方法 

在 相应 标 度 中 设置 labels 参数 ， 使 用 \n 来 表示 新 行 。 在 本 例 中 ， 我 们 将 使 用 scale_ 
fill discrete() 来 控制 标 度 fi11 的 图 例 ( 见 图 10-17 左 图 ): 


p <- ggplot (PlantGrowth, aes (x=group, y=weight, fill=group)) + geom boxplot() 


# 含有 多 于 一 行文 本 的 标签 





p + Scale fill discrete(labels=c("Control", "Type l\ntreatment", 
"Type 2\ntreatment")) 
6.0-~ bd 6.0- 四 
. . 
group 
5.5= roul 55" 
轧 conto 
至 鲜 control 于 
5.0-~ Type 1 最.0- Type1 
人 featgent treatment 
4.5+4 可 ype 4.5- 
treatment Type 2 
treatment 
4.0— 4.0— 
3.5~ } i 3.5- 1 1 f 
ctrl trti trt2 ctrl trt1 trt2 
group group 











10-17 左 图 : 多 行 的 图 例 标签 ” 右 图 : 增加 了 图 例 说 明 的 高 度 并 减 小 了 行距 

讨论 

从 图 10-17 左 图 可 以 看 到 ， 默 认 设置 下 ， 当 使 用 多 于 一 行文 本 的 标签 时 ， 各 行文 本 将 
相互 登 加 。 要 处 理 这 个 问题 ， 可 以 使 用 theme () 增加 图 例 说 明 的 高 度 并 减 小 各 行 的 间 
距 完成 〈 见 图 10-17 右 图 )。 要 实现 这 个 操作 ， 需 要 使 用 grid 包 中 的 unit () 函数 来 指 
定 高 度 : 


library (grid) 
p + Scale fill discrete(labels=c("Control", "Type 1\ntreatment", 
"Type 2\ntreatment")) + 
theme (legend.text=element text (lineheight=.5), 
legend. key.height=unit (1, "cm")) 
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分 面 





数据 可 视 化 中 最 实用 的 技术 之 一 是 将 分 组 数据 并 列 呈 现 ， 这 样 使 得 组 间 的 比较 变 得 轻 而 
易 举 。 使 用 ggplot 做 这 件 事 的 方法 之 一 是 将 一 个 离散 型 变量 映射 为 一 个 图 形 属性 ， 如 x 的 
位 置 、 颜 色 或 形状 。 男 一 种 方法 则 是 为 每 组 数据 创建 一 个 子 图 ， 然 后 并 排 绘 制 这 些 子 图 。 
这 类 图 形 被 称 为 格子 (trellis) 图 形 ， 它 们 已 被 lattice 包 和 ggplot2 包 所 实现 。 在 
ggplot2 中 ， 它 们 被 称 为 分 面 (facet)。 在 本 章 中 ， 将 讲解 它们 的 使 用 方法 。 


11.1 使 用 分 面 将 数据 分 割 绘制 到 子 图 中 


问题 
如 何在 独立 的 面板 中 绘制 数据 的 若干 子 集 ? 
方法 


使 用 facet_grid() 或 facet_wrap () 函数 ， 并 指定 根据 哪个 变量 来 分 割 数据 。 
使 用 facet_grid () 函数 时 ， 你 可 以 指定 一 个 变量 作为 纵向 子 面板 分 割 的 依据 ， 并 指 
定 另外 一 个 变量 作为 横向 子 面板 分 割 的 依据 ( 见 图 11-1): 


# 基本 图 形 
Pp <- ggplot (mpg, aes (x=displ, y=hwy)) + geom point () 


# 纵向 排列 的 子 面板 根据 drv 分 面 
P + facet grid(drv ~ .) 


# 横向 排列 的 子 面板 根据 cyl 分 面 
p+ facet grid(. ~ cyl) 


# 同时 根据 drv (纵向 ) 和 cyl (横向 ) 分 割 
p + facet grid(drv ~ cyl) 
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图 11-1 上 图 : 根据 drv 横向 分 面 左下 图 : 根据 cyl 纵向 分 面 右 下 图 : 使 用 双 变量 双向 分 面 
使 用 facet_wrap () 时 ， 各 子 图 将 像 纸 上 的 文字 一 样 被 依次 横向 排 布 并 换行 ， 如 图 11-2 所 示 : 


# 依 class 分 面 
# 注意 波浪 线 前 没有 任何 字符 


p + facet wrap( ~ class) 
讨论 
使 用 facet_wrap() 时 ， 默 认 使 用 相等 数量 的 行 和 列 。 图 11-2 中 共有 7 个 分 面 ， 恰 好 可 以 
谍 入 一 个 3X3 的 “ 方 阵 ”中 。 要 对 该 方 阵 进行 修改 ， 可 以 通过 向 nrow 或 ncol 赋值 实现 : 
# 两 种 方式 的 结果 是 相同 的 ; 2 行 4 列 的 分 面 


P + facet wrap( ~ class, nrow=2) 
p + facet wrap( ~ class, ncol=4) 


分 面 方向 的 选择 依赖 于 你 更 倾向 于 鼓励 读 图 者 进行 哪 种 类 型 的 比较 。 举 例 来 说 ， 如 果 
你 希望 比较 各 条 形 的 高 度 ， 让 分 面 横向 排 布 会 更 有 用 ; 如 果 你 希望 比较 直方 图 的 水 平 
分 布 ， 那 么 纵向 排 布 分 面 是 明智 的 选择 。 


有 时 两 类 比较 都 很 重要 一 一 所 以 对 于 哪 种 分 面 方向 更 好 的 问题 ， 可 能 没有 一 个 明确 的 
答案 。 可 能 的 结果 是 ， 浊 这 站 才 直 区 生 二 二条 和 凑 色 之 虹 把 国 北 拓 性 在 单一 的 
图 形 中 来 展示 分 组 ， 会 比 使 用 分 面 的 效果 更 好 。 在 这 些 情 况 下 ， 只 能 依靠 你 自己 的 判 
断 来 决定 使 用 哪 种 方式 。 
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11-2 ”使 用 facet_wrap() 对 class 分 面 得 到 的 散 点 图 


11.2 在 不 同 坐 标 轴 下 使 用 分 面 


问题 

如 何 绘制 坐标 轴 范 围 或 坐标 轴 元 素 不 同 的 多 个 子 图 ? 

方法 

将 标 度 设置 为 "free x"、"free y" 或 "free"( 见 图 11-3 ): 
并 基本 图 形 
P <- ggplot (mpg, aes (x=displ, y=hwy)) + geom point() 
# 使 用 自由 的 Y 标 度 


P + facet grid(drv ~ cyl, scales="free y") 


# 使 用 自由 的 x 标 度 和 y 标 度 


P + facet gridl(drv ~ cyl, scales="free") 
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图 11-3 上 图 : 使 用 自由 的 y 标 度 下 图 : 使 用 自由 的 x 标 度 和 了 标 度 


讨论 

当 使 用 自由 的 y 标 度 时 ， 各 行 子 图 都 将 拥有 自己 的 y 值 域 ， 当 使 用 自由 的 x 标 度 时 ， 
相同 的 原理 也 适用 于 各 列子 图 。 

你 无 法 直接 设置 各 行 或 各 列 的 值 域 ， 但 是 可 以 通过 丢弃 不 想 要 的 数据 (以 缩减 值 域 ) 
或 通过 添加 几何 对 象 geom_blank () 〈 以 扩展 值 域 ) 的 方式 控制 值 域 的 大 小 。 

另 见 

参见 3.10 节 中 使 用 自由 标 度 和 离散 型 坐标 轴 分 面 的 示例 。 
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11.3 ”修改 分 面 的 文本 标签 


问题 
如 何 修改 分 面 标签 的 文本 ? 


方法 
修改 因子 各 水 平 的 名 称 即 可 〈 见 图 11-4): 


后 


份 原始 数据 


mpg2 <- mpg ## 复制 一 份 
# 重合 名 4 为 4wd、 工 为 Front、r 为 Rear 

levels (mpg2$drv) [levels (mpg2$drv)=="4"] <- "Awd" 
levels (mpg2$drv) [levels (mpg2$drv)=="f"] <- "Front" 


levels (mpg2$drv) [levels (mpg2$drv)=="r"] <- "Rear™" 


# 绘制 新 数据 
ggplot (mpg2, aes (x=displ, y=hwy)) + geom point() + facet grid(drv ~ .) 
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11-4 左 图 : 默认 分 面 标签 ” 右 图 : 修改 后 的 分 面 标签 


讨论 
要 设置 分 面 标签 ， 必 须 修改 数据 本 身 的 值 ， 这 在 用 法 上 与 能 够 设置 标签 的 标 度 有 所 不 
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同 。 


另外 ， 在 本 书 撰写 之 时 ， 尚 无 将 分 面 变量 的 名 称 作为 各 分 面 标题 显示 的 方法 ， 所 


以 使 用 更 有 描述 力 的 分 面 标签 是 比较 有 用 的 。 


使 用 facet grid() 时 (目前 并 不 适用 于 facet_ wrap () )， 可 以 使 用 一 个 贴 标 函 数 (labeller 
function) 来 设置 标签 。 以 下 贴 标 函 数 label_both () 将 在 每 个 分 面 上 同时 打印 出 变量 


的 名 称 和 变量 的 值 ( 见 图 11-5 左 图 ): 


ggplot (mpg2, aes (x=displ, y=hwy)) + geom point() + 
facet gridl(drv ~ ., labeller = label both) 
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11-5 左 图 : 使 用 label both() 右 图 : 使 用 label_parsed() 绘制 数学 表达 式 


另 一 个 实用 贴 标 函 数 是 label _parsed()， 它 可 以 读 入 字符 串 ， 并 将 其 作为 R 数学 表 
达 式 来 解析 〈 见 图 11-5 右 图 ): 


mpg3 <- mpg 


levels (mpg3$drv) [levels (mpg3$drv)=="4"] <- "4*° {wa})" 
levels (mpg3$drv) [levels (mpg3$drv)=="f£"] <- "- Front $.% e*{[pi * i] 
levels (mpg3$drv) [levels (mpg3$drv)=="r"] <- "4°{wd 


| 
pe 


ggplot (mpg3, aes (x=displ, y=hwy)) + geom point() + 
facet grid(drv ~ ., labeller = label parsed) 


» 和 
三 | 


参 


见 15.10 节 以 了 解 更 多 因子 水 平 重 命名 的 知识 。 如 果 分 面 变量 不 是 一 个 因子 而 是 一 
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个 字符 型 向 量 ， 修 改 方式 会 稍 有 不 同 。 参 考 15.12 节 以 


只 


解 字符 型 向 量 元 素 的 重 命名 
11.4 ”修改 分 面 标签 和 标题 的 外 观 


问题 
如 何 修改 分 面 标签 和 标题 的 外 观 ? 
方法 


使 用 主题 系统 ， 人 .text 来 控制 文本 的 外 观 ， 设 置 strip.background 以 
控制 背景 的 外 观 〈 见 图 11-6 


library (gcookbook) # 





colour=" 








Cuitivar 


ols 











11-6 ” 自 定义 分 面 标签 的 外 观 

讨论 

rel (1.5) 使 得 标签 文本 的 大 小 为 此 主题 下 基准 文本 大 小 的 1.5 倍 。 

在 背景 设置 中 使 用 的 size=1 使 得 分 面 标题 背景 轮廓 线 的 粗细 为 1 毫米 。 
另 见 


关于 主题 系统 工作 原理 的 更 多 信息 ， 参 见 9.3 节 和 9.4 


| 


206 第 11 章 


第 12 章 


配色 





在 ggplot2 的 图 形 语法 中 ， 颜 色 是 一 个 图 形 属性 (aesthetic)， 如 同 x 的 位 置 、y 的 位 置 、 
大 小 等 一 样 。 如 果 颜 色 仅 仅 就 是 一 个 简单 的 图 形 属性 ， 那 又 何必 单 开 一 章 ? 原因 是 颜 
色 要 比 其 他 图 形 属性 复杂 得 多 。 和 简单 地 将 几何 对 象 (geom) 左右 移动 、 放 大 放 小 相 
比 ， 当 你 使 用 颜色 的 时 候 ， 有 很 多 维度 或 者 说 自由 度 要 考虑 。 表 达 离 散 型 数据 时 应 该 
用 什么 样 的 调 色 板 ? 是 否 要 使 用 几 种 不 同 的 渐变 色 系 ? 如 何 选择 合适 的 颜色 使 得 有 视 
觉 缺 陷 的 人 也 能 正确 地 读 图 ? 在 这 一 章 中 ， 我 会 解答 这 些 问题 。 


12.1 设置 对 象 的 颜色 


问题 

如 何 设置 图 形 中 几何 对 象 的 颜色 ? 

方法 

对 于 几何 对 象 ， 设 置 colour 或 者 fill 参数 的 值 ( 见 图 12-1): 
ggplot (mtcars, aes (x=wt, y=mpg)) + geom point (colour="red") 


library (MASS) 丰 为 了 使 用 数据 集 
ggplot (birthwt, aes(x=bwt)) + geom histogram(fill="red", colour="black") 


讨论 
在 ggplot2 中 ,设置 和 映射 图 形 属性 有 非常 重大 的 区 别 。 在 前 面 的 例子 中 ， 我 们 将 对 
象 的 颜色 设置 为 "red" (红色 )。 


一 般 而 言 ，colour 参数 控制 的 是 线条 、 多 边 形 轮廓 的 颜色 ， 而 fill 参数 控制 的 是 多 边 
形 的 填充 色 。 对 于 点 形 来 说 ， 情 况 略 微 有 些 不 同 。 大 多 数 的 点 形 ， 整 个 点 的 颜色 是 由 
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colour 控制 的 ， 而 不 是 太 11。 例 外 的 情况 是 21-25 号 点 ， 它 们 不 仅 有 填充 色 ， 也 有 边界 色 。 
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图 12-1 左 图 : 设置 填充 色 和 边界 色 “” 右 图 : 设置 点 的 颜色 


另 见 
关于 不 同形 状 的 点 的 更 多 信息 ， 参 见 4.5 节 。 
关于 设置 颜色 的 更 多 信息 ， 人 参见 12.4 节 。 


12.2 | 变量 映射 到 颜色 上 


问题 

如 何 用 一 个 变量 〈 来 自 于 数据 框 的 某 一 列 ) 来 控制 几何 对 象 的 颜色 ? 

方法 

对 于 儿 何 对 象 ， 将 colour 或 fi11 参数 的 值 设置 为 数据 中 某 一 列 的 列 名 即 可 〈 见 图 12-2): 
library (gcookbook) # 为 了 使 用 数据 集 
# 这 两 种 方法 效果 相同 
ggplot (cabbage exp, aes (x=Date, y=Weight, fill=Cultivar)) + 


geom bar (colour="black", position="dodge") 


ggplot (cabbage exp, aes (x=Date, y=Weight)) + 
geom bar (aes (fill=Cultivar), colour="black", position="dodge") 


# 这 两 种 方法 效果 相同 


ggplot (mtcars, aes(x=wt, y=mpg, colour=cyl)) + geom point () 


ggplot (mtcars, aes (x=wt, y=mpg)) + geom point (aes (colour=cy1)) 
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12-2” 左 图 : 将 变量 映射 到 fi11 参数 ” 右 图 : 将 变量 映射 到 点 的 colour 参数 


ggplot () 函数 中 的 映射 使 用 的 是 默认 映射 《所 有 几何 对 象 都 由 此 继承 )。 通 过 在 geom 
系列 函数 中 的 具体 设置 ， 可 以 覆盖 默认 映射 。 


讨论 
在 cabbage_exp 的 例子 中 ， 变 量 cultivar 映射 到 了 fil1。cabbage_exp 数据 集 的 列 
cultivar 是 因子 ， 因 此 ggplot2 将 它 作 为 离散 型 变量 处 理 。 你 可 以 输入 str() 来 验证 : 


str (cabbage exp) 


'data.frame': 6 obs. of 6 variables: 
$ Cultivar: Factor W/ 2 levels "c39","c52"; 1 11222 
$ Date : Factor w/ 3 levels "dl16","d20","d21": 1 23123 
$ Weight : num 3.18 2.8 2.74 2.26 3.11 1.47 
$ sd : num 0.957 0.279 0.983 0.445 0.791 ... 
$n : int 10 10 10 10 10 10 
$ se : num 0.3025 0.0882 0.311 0.1408 0.2501 ... 


在 mtcars 的 例子 中 ， 变 量 cyl 是 数值 形式 的 ， 因 此 它 被 作为 连续 型 变量 来 处 理 。 正 
因为 如 此 ， 尽 管 它 的 实际 取 值 仅仅 包含 了 4、6、8， 图 例 中 还 是 显示 了 中 间 值 5 和 7。 
为 了 让 ggplot () 把 cyl 视 为 分 类 变量 ， 我 们 可 以 在 ggplot () 函数 中 将 其 转化 为 因子 ， 
或 者 修改 原 数据 让 需要 的 列 成 为 字符 或 因子 类 型 ( 见 图 12-3 )。 

# 在 ggplot() 中 因子 化 


ggplot (mtcars, aes (x=wt, y=mpg, colour=factor(cyl))) + geom point () 


# 另 一 个 方法 : 在 原 数 据 中 因子 化 


m <- mtcars # 复制 mtcars 

m$cyl <- factor (m$cyl) # 将 cyl 转化 为 因子 

ggplot (m, aes (x=wt, y=mpg, colour=cyl)) + geom point() 
另 见 


你 可 能 还 需要 改变 在 标 度 中 使 用 的 颜色 。 对 于 连续 型 数据 ， 参 见 12.6 节 ; 对 于 离散 型 
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数据 ， 参 见 12.3 节 或 12.4 节 。 
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12-3 ”将 连续 型 变量 转换 为 因子 映射 到 颜色 上 


12.3 ”对 离散 型 变量 使 用 不 同 的 调 色 板 


问题 

如 何 对 离散 映射 的 变量 使 用 不 同 的 颜色 ? 
方法 

使 用 表 12-1 中 列 出 的 一 种 标 度 。 

表 12-1 ”离散 的 填充 色 标 度 和 轮廓 色 标 度 
轮廓 色 标 度 


scale colour grey () 
Scale colour brewer () 


scale colour manual () 



















i 
色 轮 周围 均匀 等 距 色 ( 同 hue) 
色 轮 周围 均匀 等 距 色 ( 同 discrete) 
灰 度 调 色 板 
ColorBrewer 调 色 板 








Scale fill discrete() 





scale fill hue() 









scale fill grey() 







Scale fill brewer () 








scale fill manual () 


在 本 例 中 ， 我 们 将 会 使 用 默认 调 色 板 和 ColorBrewer 调 色 板 〈 见 图 12-4): 


library (gcookbook) # 为 了 使 用 数据 集 


# 基础 图 形 
p <- ggplot (uspopage, aes (x=Year, y=Thousands, fill=AgeGroup)) + geom area() 
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# 这 三 种 方法 效果 相同 

Pp 

p+ Scale fill discrete() 
五 本 BCale fil] hue{) 


# ColorBrewer 调 色 板 
p's SCale 人 11 brewer() 





250000- 
妇 200000- 
150000- 
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里 100000 ~ 


50000~ 





(= 


1 1 i I ' i 0 ' | i I [ 
1900 1920 1940 1960 1980 2000 1900 1920 1940 1960 1980 2000 
Year Year 











图 12-4” 左 图 : 默认 调 色 板 (hue ) 右 图 : 一 个 ColorBrewer 调 色 板 


讨论 

修改 调 色 板 就 是 修改 填充 色 标 度 (fi11) 或 轮廓 色 标 度 (colour): 它 会 涉及 从 连续 
型 或 离散 型 变量 到 图 形 属性 上 映射 的 改变 。 在 颜色 上 有 两 个 类 型 的 标 度 ， 填 充 色 标 度 
和 轮廓 色 标 度 。 

函数 scale_fill hue() 中 ， 颜 色 来 自 HCL 色 系 (hue-chroma-lightness : 色相 一 色 度 一 
亮度 ) 的 色 轮 ， 默 认 的 亮度 是 65〈 取 值 为 0~100)。 这 很 适合 作为 填充 色 ， 但 对 点 、 线 
条 来 说 略微 亮 了 些 。 为 了 使 点 、 线 条 的 颜色 更 深 一 点 〈 见 图 12-5 右 图 )， 可 以 设置 亮 
度 参 数 1 值 (Iluminance/lightness) 来 实现 。 
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图 12-5 左 图 : 默认 亮度 的 点 右 图 : 亮度 设置 为 45 
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# 基本 的 散 点 图 
h <- ggplot (heightweight, aes (x=ageYear, y=heightIn, colour=sex)) + 
geom point() 


# 上 默认 亮度 lightness = 65 


# 咯 微 加 深 


h + scale colour hue(1=45) 


ColorBrewer 包 提 供 了 很 多 调 色 板 。 你 可 以 生成 一 张 图 来 查看 该 包 中 所 有 调 色 板 ， 
见 图 12-6: 


library (RColorBrewer) 
display.brewer.all () 


| YIOrRd 
YIOrBr 

YIGnBu 
YIGn 
Reds 
RdPu 
Purples 
PuRd 
PuBuGn 
PuBu 
OrRd 
Oranges 
Greys 
Greens 
GnBu 
BuPu 
BuGn 
Blues 
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Pastel2 出 

Paste!1 司 
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Dark2 柄 画 画 画 画 “画面 
Accent ED 
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RdYIGn 国 国 国有 
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RdGy 面 而 到 吓 
RdBu 国 国 本 是 
Puor 国 而 旺 司 
PRGn 国 醒 本 大 
PiYG 二 
BrBG 国 醒 是 导 











A 
PE , 


| 一 -二 = 
12-6 ”所 有 的 ColorBrewer 调 色 板 
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ColorBrewer 调 色 板 可 以 通过 名 称 来 选择 。 比 如 ， 这 将 使 用 橘 黄色 调 色 板 〈 见 图 12-7): 


p + Scale fill brewer (Palette= .3 
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12-7 ”使 用 橘 黄色 的 ColorBrewer 调 色 板 


你 还 可 以 使 用 灰 度 调 色 板 ， 它 很 适合 黑白 打印 。 标 度 范围 是 0 一 1〈 其 中 0 对 应 黑色 ， 


1 对 应 白色 )， 灰 度 调 色 板 的 默认 范围 是 0.2 一 0.8， 但 这 个 可 以 更 改 ， 参 见 图 12-8。 


b+ seale till grey() 


# 倒转 方向 并 且 更 改 灰 度 范围 








p+ Scale fill grey(start=0).7, end=0) 
AgeGroup ， AgeGroup 
必 
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0 0- 
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12-8 左 图 : 使 用 默认 的 灰 度 调 色 板 ” 右 图 : 一 个 不 同 的 灰 度 调 色 板 


男 见 

10.4 节 中 讲述 了 倒转 图 例 。 

手动 选择 颜色 ， 参 见 12.4 节 。 

关于 ColorBrewer 的 更 多 信息 参见 http://colorbrewer.org。 
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12.4 对 离散 型 变量 使 用 自 定 义 调 色 板 


问题 

对 离散 映射 的 变量 ， 如 何 使 用 不 同 的 颜色 ? 

方法 

在 本 例 中 ， 我 们 将 用 scale_colour _ manual () 函数 来 自 定 义 颜色 〈 见 图 12-9)。 其 中 


的 颜色 可 以 是 已 命名 的 ， 也 可 以 是 RGB 形式 的 。 
library (gcookbook) # 为 了 使 用 数据 集 


# 基础 图 形 
h <- ggplot (heightweight, aes (x=ageYear, y=heightIn, colour=sex)) + geom point() 





# 使 用 颜色 名 
h + scale colour manual (values=c ("red", "blue")) 
# 使 用 RGB 什 
h + scale colour manual (values=c ("#CC6666", "#7777DD")) 
本 . 
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12-9 ” 左 图 : 使 用 颜色 名 的 散 点 图 ” 右 图 : 使 用 略微 不 同 的 RGB 颜色 

对 于 填充 色 标 度 ， 使 用 scale_fill manual () 代替 即 可 。 

讨论 

参数 values 向 量 中 的 元 素 顺序 自动 匹配 离散 标 度 对 应 因子 水 平 的 顺序 。 在 前 面 的 例 
子 中 ，sex 的 顺序 是 先 f£ 后 m， 因 此 values 的 第 一 个 值 赋 予 £:， 第 二 个 值 赋予 m。 下 
面 是 如 何 查 看 因子 顺序 的 方法 : 


levels (heightweight$sex) 





nEn mn 
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如 果 变 量 是 字符 型 向 量 而 非 因子 形式 ， 那 么 它 会 被 自动 转化 为 因子 ， 顺 序 也 默认 地 按 

字母 表 排 序 。 

如 果 想 自 定义 颜色 分 配 的 顺序 ， 可 以 使 用 带 有 名 称 的 向 量 参数 : 

h + scale colour manual (values=c (m="blue", f="red")) 

在 R 中 有 很 多 已 经 命名 的 颜色 ， 你 可 以 运行 colors () 命令 来 查看 。 知 道 一 些 基 本 的 

颜色 名 是 很 有 用 的 ， 比 如 "white”、"black”、"grey80"、"red"、"blue"、"darkred" 

等 。 还 有 很 多 其 他 的 颜色 ,但 是 它们 的 名 字 并 不 是 很 好 理解 (比如 我 就 对 "thi st1le3"、 

"seashell" 之 类 的 毫 无 概念 )， 因 此 使 用 RGB 值 来 定义 颜色 往往 更 容易 些 。 

RGB 颜色 是 由 六 个 数字 构成 〈 十 六 进 制 数 ) ， 形 式 如 "#RRGGBB"。 在 十 六 进 制 中 ， 数 

字 先 从 0 到 9， 然 后 紧 接 着 是 A 到 F， 其 中 A 对 应 十 进 制 中 的 10，F 对 应 十 进 制 中 的 

15。 每 一 个 颜色 都 由 两 个 数字 来 表示 ， 范 围 从 00 到 FF(( 对 应 十 进 制 中 的 2355)。 举 

个 例子 ， 颜 色 "#FF0099" 中 ，255 表示 红色 、0 表示 绿色 、153 表示 蓝 色 ， 整 体 表 示 品 

红色 。 十 六 进 制 数 中 每 个 颜色 通道 常常 重复 同样 的 数字 ， 因 为 这 样 更 容易 阅读 并 且 第 

二 个 数字 的 精确 值 对 外 观 的 影响 并 不 是 很 明显 。 

这 里 总 结 了 一 些 设置 、 调 整 RGB 颜色 的 经 验 法 则 。 

。 在 一 般 情况 下 ， 较 大 的 数字 更 明亮 ， 较 小 的 数字 更 暗淡 。 

。 如 果 要 得 到 灰色 ， 将 三 个 颜色 通道 设置 为 相同 的 值 。 

。 和 RGB 对 立 的 是 CMY (印刷 三 原色 ): 青 (cyan)、 上 品 红 (magenta)、 黄 (yellow)。 
红色 通道 值 越 高 ， 颜 色 越 红 ， 越 低 则 越 青 。 同 样 的 法 则 适用 于 另外 两 组 颜色 对 : 绿 
色 - 品 红 、 蓝 色 - 黄色。 

另 见 

这 里 提供 了 一 个 RGB 颜色 十 六 进 制 表 : http://html-color-codes.com/。 


TT 3 » 
12.5 ”使 用 色盲 友好 式 的 调 色 板 
问题 
如 何 选 择 色盲 朋友 也 能 正确 区 分 的 颜色 ? 
太 靶 
使 用 函数 scale_fill _manual() ， 调 色 板 (cb palette) 用 自 定义 的 〈 见 图 12-10): 
library (gcookbook) # 为 了 使 用 数据 集 


# 基础 图 形 
p <- ggplot (uspopage, aes (x=Year, y=Thousands, fill=AgeGroup)) + geom area() 
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# 加 入 灰色 到 调 色 板 : 
cb palette <- C("#999999", "#E69F00", "#56BAE9"; “#009E73", "#FOEA42"; 


cB 77 #0DIIL 7 


# 将 其 使 用 到 图 形 中 


P + scale fill manual (values=cb palette) 
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12-10 ”一 个 色盲 友好 式 的 图 形 
图 12-11 中 展示 了 颜色 。 
#000000 
#999999 
#E69F00 
#56B4E9 
#009E73 
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#0072B2 
#D55E00 
#CC79A7 











12-11 RGB 数值 的 色盲 调 色 板 
有 时 候 使 用 黑色 可 能 比 灰 色 更 好 ， 此 时 将 "#999999" 替换 为 #000000" 或 "black” 即 可 : 


Ce EF JRIWN + 
CcC("#000 BD hb 5 DY #56P4F 5 # 9E73", # E442", # 2B2", #D55E0 f 


:79A7") 


讨论 
大 约 8% 的 男性 、0.5% 的 女性 存在 某 种 形式 的 颜色 识别 缺陷 ， 因 此 你 的 周围 很 可 能 就 
有 这 样 的 人 。 
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色盲 的 形式 多 种 多 样 ， 这 里 的 调 色 板 是 经 专门 设计 、 能 让 所 有 常见 的 色觉 缺陷 人 士 区 分 
的 〈Monochromacy， 或 全 色盲 ， 是 非常 罕见 的 。 这 种 色盲 人 群 只 能 区 分 亮度 的 差异 )。 
另 见 

本 调 色 板 的 来 源 : http://jfly.iam.u-tokyo.ac.jp/color/。 

Color Oracle 程序 (http:Wcolororacle.org/) 可 以 仿真 模拟 出 你 屏幕 上 的 东西 在 色 沉 缺陷 
人 士 眼 中 的 样子 ， 不 过 要 记 住 的 是 这 个 仿真 模拟 并 不 完善 。 在 我 非 正 式 的 测试 中 ， 我 
看 了 一 幅 模拟 红 绿 色 缺陷 的 图 片 ， 可 以 很 好 地 区 分 ， 但 真正 的 红 绿 色盲 却 无 法 区 分 ! 
12.6 ”对 连续 型 变量 使 用 自 定义 调 色 板 

问题 

如 何 对 连续 型 变量 自 定义 调 色 板 ? 

方法 

在 本 例 中 ， 我 们 将 会 展示 对 连续 型 变量 自 定义 渐变 式 的 调 色 板 〈 见 图 12-12)。 颜 色 可 
以 用 已 命名 的 ， 也 可 以 用 RGB 值 来 指定 。 
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图 12-12 ”从 左上 图 顺 时 针 依次 是 : 默认 颜色 、 两 色 渐 变 ( scale_colour_gradient () ) 、 三 色 
渐变 ( scale_colour_gradient2() ) 和 四 色 渐 变 ( scale_colour gradientn() ) 
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library (gcookbook) # 为 了 使 用 数据 集 


# 基础 图 形 

p <- ggplot (heightweight, aes (x=ageYear, y=heightIn, colour=weightLb)) + 
geom point (size=3) 

P 


# 使 用 两 种 颜色 的 渐变 色 


p + scale colour _ gradient (low="black", high="white") 


# 渐变 色 中 间 用 白色 划分 


library (scales) 


P + scale colour gradient2 (low=muted ("red"), mid="white", high=muted ("blue"), 
midpoint= ) 
个 颜色 的 渐变 色 

p+ i colour gradientn(colours = c("darkred", "orange", "yellow", "white")) 


对 于 填充 色 标 度 ， 使 用 scale_ fill xxx() 替换 即 可 ， 这 里 xxx 是 gradient、gradient2 
或 gradientn 中 的 一 个 。 


讨论 
将 连续 型 变量 映射 到 颜色 标 度 上 需要 一 组 连续 变化 的 颜色 。 表 12-2 列 出 了 连续 的 填充 
色 和 轮廓 色 标 度 。 

表 12-2 ”连续 的 填充 色 和 轮廓 色 标 度 


I ee 人 
seale colour_graqient 0 | 两 


scale_colour gradient2 () | 三 色 渐 变 ， 由 中 间 色 、 两 端 























Scale fill gradient () 





scale fill gradient2 () 








scale_colour _ gradientn() | 等 间隔 的 n 种 颜色 的 渐变 色 


请 注意 ， 我 们 在 本 例 中 使 用 了 muted() 函数 。 该 函数 来 自 scales 包 ， 它 会 针对 输入 的 
颜色 输出 一 个 饱和 度 较 低 的 颜色 (RGB 格式 )。 


发 见 


如 果 你 不 想 用 连续 标 度 ， 而 想 使 用 离散 (分 类 ) 标 度 ， 你 可 以 将 数据 重新 编码 成 分 类 
值 。 参 见 15.14 节 。 


12.7 根据 数值 设 定 阴影 颜色 


问题 
如 何 根据 y 值 设置 阴影 的 颜色 ? 





scale fill gradientn() 
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方法 
增加 一 列 来 对 ?进行 划分 ， 然 后 将 该 列 映射 到 填充 色 标 度 上 。 在 本 例 中 ， 首 先 对 数据 
进行 正 负 划分 。 


library (gcookbook) 间 为 了 使 用 数据 集 


cb <- subset (climate, Source=="Berkeley") 
cb$valence[cb$Anomalyl0y >= 0] <- "pos" 
cb$valence[cb$Anomalyl0y < 0] <- "neg" 

cb 

Source Year Anomalyly Anomaly5y Anomalyl0y Uncl0y valence 

Berkeley 1800 NA NA -0.435 0.505 neg 
Berkeley 1801 NA NA -0.453 0.493 neg 
Berkeley 1802 NA NA -0.460 0.486 neg 
Berkeley 2002 NA NA 0.856 0.028 pos 
Berkeley 2003 NA NA 0.869 0.028 pos 
Berkeley 2004 NA NA 0.884 0.029 pos 


当 我 们 对 数据 划分 正 负 之 后 ， 我 们 就 可 以 将 valence 变量 映射 到 填充 色 上 来 作 图 了 ， 
如 图 12-13 所 示 : 
ggplot (cb, aes (x=Year, y=Anomalyl0y)) + 
geom_area (aes (fill=valence)) + 


geom line() + 
geom hline (yintercept=0) 





9 
a 
1 


valence 


neg 
pos 







Anomaly10y 
[= 
[= 


上 
了 


-1.0— 


1 1 了 1 
1800 1850 1900 1950 2000 
Year 











12-13 ”将 valence 映射 到 填充 色 一 一 注意 1950 年 附近 0 水 平 线 下 面 的 红色 区 域 


讨论 
如 果 你 仔细 观察 此 图 ， 会 发 现在 0 水平 线 附 近 有 一 些 凌 乱 的 阴影 。 这 是 因为 两 个 颜色 
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区 域 都 是 由 各 自 的 数据 点 多 边 形 包 围 形 成 的 ， 而 这 些 数据 点 并 不 都 在 0 上 。 为 了 解决 
这 个 问题 ， 我 们 可 以 用 approx () 将 数据 插值 到 1000 个 点 左右 。 


# approx() 收回 一 个 列表 ， 包含 x 和 yy 向量 
interp <- po (OIEAr, cb$Anomalyl0y, n= ) 


# 放 在 一 个 数据 框 中 并 重新 计算 valence 
cbi <- data,frame (Year=interp$x, Anomalyl0y=interp$y) 
cbi$valence[cbi$Anomalyl0y >= 0] <- "pos" 

cbhi$valence[cbi$Anomalyl0y < 0] <- "neg 


我 们 也 可 以 让 插值 精确 地 通过 零点 ， 但 显然 这 样 会 更 复杂 。 在 这 里 ，approx () 的 效果 


已 经 很 好 了 。 


现在 ， 我 们 重新 绘制 插值 后 的 数据 〈 见 图 12-14)。 这 一 次 ， 我 们 还 会 做 一 些 调整 一 一 
让 阴影 区 域 半 透明 、 改 变 颜 色 、 移 除 图 例 并 删除 填充 区 域 左右 两 侧 的 空余 : 


ggplot (cbi，aes (x=Year, y=Anomalyl0y)) + 


PP 





geom_area(aes (fill=valence), alpha = -3) + 

geom line() + 

geom hline(yintercept=0) + 

scale fill manual (values=c("#CCEEFF", "#FFDDDD"), guide=FALSE) + 

scale x continuous (expand=c (0, 0 

0.5— 
> 
> 
言 oo 
E 
6 
各 
< 05- 

-1.0- 

T 1 1 U I 
1800 1850 1900 1950 2000 
Year 








12-14 ”插值 数据 的 阴影 区 域 
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中 
几 


其 他 





大 
eA 


数据 可 视 化 的 方法 很 多 ， 有 些 图 形 实在 难以 清晰 地 分 门 别 类 。 本 章 展示 如 何 绘 制 这 些 图 形 。 


13.1 绘制 相关 和 矩阵 图 
问题 

如 何 绘 制 一 个 相关 矩阵 图 ? 

方法 

我 们 先 来 看 看 mtcars 数据 集 : 


mtcars 

mpg cyl disp hp drat Wwt qsec vs am gear carb 
Mazda RX4 21.0 6 160.0 110 3.90 2.620 16.46 0 1 4 4 
Mazda RX4 Wag 21.0 6 160.0 110 3.90 2.875 17.02 0 1 4 4 
Datsun 710 22.8 4 108.0 93 3.85 2.320 18.61 1 1 4 1 
Ferrari Dino 19.7 6 145.0 175 3.62 2.770 15.50 0 1 5 6 
Maserati Bora 15.0 8301.0 335 3.54 3.570 14.60 0 1 5 8 
Volvo 142E 21.4 4 121.0 109 4.11 2.780 18.60 1 1 4 2 

首先 ， 使 用 cor 函数 来 计算 相关 矩阵， 将 会 得 到 每 两 列 之 间 的 相关 系数 : 

mcor <- Cor (mtcars) 


# 输出 mcor， 保 留 两 位 小 数 


round (mcor，digits=2) 


mpg cyl disp hp drat wt qsec vs am gear carb 
mpg 1.00 -0.85 -0.85 -0.78 0.68 -0.87 0.42 0.66 0.60 0.48 -0.55 
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cyl -0.85 1.00 0.90 0.83 -0.70 0.78 -0.59 -0.81 -0.52 -0.49 53 
disp -0.85 0.90 1.00 0.79 -0.71 0.89 -0.43 -0.71 -0.59 -0.56 39 
hp -0.78 0.83 0.79 1.00 -0.45 0.66 -0.71 -0.72 -0.24 -0.13 75 
drat 0.68 -0.70 -0.71 -0.45 1.00 -0.71 0.09 0.44 0.71 0.70 09 
wt -0.87 0.78 0.89 0.66 -0.71 1.00 -0.17 -0.55 -0.69 -0.58 43 


vs 0.66 -0.81 -0.71 -0.72 0.44 -0.55 0.74 1.00 0.17 0.21 57 

am 0.60 -0.52 -0.59 -0.24 0.71 -0.69 -0.23 0.17 1.00 0.79 06 

gear 0.48 -0.49 -0.56 -0.13 0.70 -0.58 -0.21 0.21 0.79 1.00 27 

carb -0.55 0.53 0.39 0.75 -0.09 0.43 -0.66 -0.57 0.06 0.27 00 
如 果 数 据 含 有 不 能 用 来 计算 系数 的 任何 列 ( 比 如 一 列 姓名 )， 应 该 先 将 这 些 列 剔除 。 如 
果 在 原始 数据 中 存在 缺失 值 (NA)， 得 到 的 相关 和 矩阵 中 也 会 有 缺失 值 。 为 了 克服 这 个 问 
题 ， 你 可 以 使 用 函数 选项 use="complete.obs" 或 者 use="pairwise.complete.obs"。 


我 们 使 用 corrplot 包 来 绘制 相关 矩阵 图 〈( 见 图 13-1) ， 第 一 次 使 用 时 用 install. 
packages ("corrplot") 命令 来 安装 该 包 : 


0. 
0. 
0. 
-0。 
0. 
qsec 0.42 -0.59 -0.43 -0.71 0.09 -0.17 1.00 0.74 -0.23 -0.21 -0.66 
-0。 
0. 
0. 
1。 


library (corrplot) 


corrplot (mcor) 
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13-1 一 个 相关 矩阵 图 


讨论 
corrplot () 函数 有 相当 多 的 选项 。 这 里 给 出 一 个 绘制 相关 矩阵 图 的 例子 ， 例 图 使 用 颜 
色 方块 和 黑色 文本 标签 ， 并 且 上 边 的 文本 标签 呈 45" 右倾 〔( 见 图 13-2)。” 

corrplot (mcor, method="shade", shade.col=NA, tl1.col="black", tl1.srt= 
将 相关 系数 展示 在 矩阵 的 每 一 个 小 方块 上 也 是 很 有 用 的 。 在 本 例 中 ， 我 们 使 用 一 
中 原 书 代码 元 余 ， 此 处 对 代码 进行 了 调整 。 一 一 译 者 注 
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个 稍 淡 一 点 的 调 色 板 ， 这 样 会 让 系数 更 加 可 读 ， 同 时 ， 我 们 也 移 除 掉 多 余 的 颜色 图 
例 。 此 外 ， 我 们 对 和 矩阵 重新 排序 ， 这 样 相近 的 变量 在 图 中 会 更 近 ， 其 中 使 用 的 参数 是 
order="AOE" (前 两 个 特征 向 量 的 角 排序 )。 结 果 如 图 13-3 所 示 。 


# 生成 一 个 淡 一 点 的 调 色 板 





col <- colorRampPalette(c("#BB4444", "#EE9988", "#FFFFFF", "#1717AADD", "#44771AA")) 
corrplot (mcor, method="shade", shade.col=NA, tl.col="black", tl.srt=é5, 
col=col( ), addCoef.col="black", cl.pos "no", order="AOE") 
x 分 
SN SQ SR 路 4 EE 









mpg 
cyl 
disp 
hp 
drat 


qsec 
vs 
am 
gear 
carb 














carb 27 6 |=9 











13-3 ”相关 和 矩阵 图 (添加 了 相关 系数 并 移 除 了 图 例 ) 


和 其 他 独立 的 绘图 函数 一 样 ，corrplot () 有 很 多 自己 的 选项 ， 这 里 无 法 一 一 列 出 ， 
表 13-1 给 出 了 一 些 最 有 用 的 参数 。 
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表 13-1 corrplot () 的 选项 






type={"lower"| "upper"} 


仅 使 用 下 三 角 或 上 三 角 








diag=FALSE 是 否 展示 对 角 线 上 的 数值 

method="shade" 使 用 颜色 方块 图 形 

method="ellipse" 使 用 椭圆 图 形 

addCoef .col="color" 在 图 形 上 添加 相关 系数 的 颜色 

tl.srt="number" 设 定 图 形 上 方 文本 标签 的 倾斜 角度 

tl1.col="color" 设 定 文本 标签 颜色 

order={"AOE" | "FPC" | "hclust"} 和 矩阵 重 排序 ， 使 用 特征 值 角 排 序 、 第 一 主 成 分 或 
层次 聚 类 

另 见 


如 果 要 生成 散 点 图 矩阵， 参见 5.13 节 。 
关于 更 多 数据 取 子 集 的 方法 ， 参 见 15.7 节 。 


13.2 ”绘制 函数 曲线 


问题 
如 何 绘制 函数 曲线 ? 


方法 

使 用 stat_function() 函数 。 为 了 得 到 合适 的 x 的 范围 ， 必 须 给 ggplot () 函数 传递 一 个 

“ 哑 ” 数 据 框 。 在 本 例 中 ， 我 们 用 正 态 分 布 的 密度 函数 dnorm() 来 演示 《〈 见 图 13-4 左 图 )。 
# 这 个 数据 框 仅仅 用 于 设 定 范围 


p <- ggplot (data.frame (x=c(-3, 3)), aes (x=x)) 


p + stat function(fun = dnorm) 








图 13-4 ” 左 图 : 正 态 分 布 函数 ” 右 图 : 自由 度 为 2 的 t 分 布 
讨论 
某 些 函 数 需 要 设 定额 外 的 参数 ， 比 如 t 分 布 的 密度 函数 dt () 就 需要 一 个 参数 来 设 定 自 
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由 度 ( 见 图 13-4 右 图 )。 可 以 这 样 来 设 定额 外 的 参数 : 先 把 它们 放 在 一 个 列表 (list) 
中 ， 再 传递 给 args。 

p+ stat_function (fun=dt，args=1ist(df=2)) 
我 们 也 可 以 绘制 自 定义 的 函数 。 其 中 第 一 个 参数 必须 是 x 轴 的 值 ， 并 且 必 须 返 回 y 轴 
的 值 。 在 本 例 中 ， 我 们 绘制 一 个 S 型 函数 〈 见 图 13-5)。 


myfun <- function (xvar) { 
i/(1 + exp(-xvar + 10)) 
} 


ggplot (data.frame (x=c (0, 20)), aes(x=x)) + stat function (fun=myfun) 








图 13-5 ”用 户 自 定义 的 函数 

计算 函数 值 时 默认 使 用 给 出 的 x 范围 内 的 101 个 点 。 但 如 果 你 的 函数 跳跃 很 大 ， 画 出 
来 的 图 可 能 有 一 些 支 离 破 碎 的 线段 。 为 了 让 曲线 更 加 光滑 ， 可 以 给 stat_ function () 
传递 一 个 更 大 的 n， 比 如 stat_function(fun=myfun，n=200) 。 


发 见 
绘制 模型 对 象 的 预测 值 (如 lm 和 glm) ， 参 见 5.7 节 。 


13.3 在 函数 曲线 下 添加 阴影 


问题 
如 何在 函数 曲线 下 的 某 一 区 域 添加 阴影 ? 


方法 
根据 你 的 曲线 函数 定义 一 个 新 的 函数 ， 把 x 范围 外 对 应 的 值 替 换 为 NA， 如 图 13-6 所 示 。 
# 在 0 < x < 2 时 返回 dnorm(x)， 其 他 时 候 返 回 NA 


dnorm limit <- function (x) { 
y <- dnorm(x) 
ylx < | x > 2] <- NA 
return (y) 
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} 


# ggplot () 使 用 “ 哑 ” 数 据 
P <- ggplot (data.frame (x=c(-3, 3)), aes (x=x)) 


p + stat function (fun=dnorm limit, geom="area", fill="blue", alpha=0.2) + 
stat function (fun=dnorm) 


| 0.4- 





0.3- 


>0.2- 











| 
13-6 ”添加 了 阴影 区 域 的 函数 曲线 图 


记 住 ， 给 这 个 函数 传 入 的 是 一 个 向 量 ， 并 不 是 一 个 单独 的 值 。 如 果 这 个 函数 每 次 只 操 
作 一 个 元 素 ， 那 么 使 用 一 个 if/el se 语句 来 根据 x 的 值 确 定 返回 值 是 更 为 合理 的 。 但 
是 那样 做 在 这 里 却 行 不 通 ， 因 为 x 是 一 个 含有 许多 值 的 向 量 。 


讨论 

R 中 有 第 一 类 函数 ， 我 们 可 以 写 一 个 函数 来 返回 一 个 闭 包 。 也 就 是 说 ， 我 们 可 以 编写 
一 个 能 够 编写 函数 的 函数 。 

这 个 函数 将 允许 你 传递 一 个 函数 、 一 个 最 小 值 和 一 个 最 大 值 。 定 义 域外 对 应 的 值 域 返回 Na : 


limitRange <- function(fun, min, max) { 
function(x) { 
¥ <- .fun {Xx) 
ylx < min | x > max] <- NA 
return (y) 





} 
} 


现在 我 们 可 以 调用 这 个 函数 来 生成 男 一 个 函数 了 一 一 这 和 之 前 使 用 的 dnorm 1imit () 
# 返回 一 个 函数 
dlimit <- limitRange (dnorm, 0, 2) 
# 现在 我 们 可 以 尝试 新 函数 了 一 仅 对 0-2 之 间 的 输入 返回 输出 值 
dlimit (-2:4) 
[1] NA NA 0.39894228 0.24197072 0.05399097 NA NA 
我 们 使 用 limitRange () 来 生成 函数 ， 并 传递 给 stat function (): 
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p+ stat_function (fun = dnorm) + 
stat function(fun = limitRange (dnorm, 0, 2), 

geom="area", fill="blue", alpha=0 .2) 
limitRange() 函数 可 以 用 来 生成 任何 函数 的 “区 间 限 制式 ”函数 ， 不 局 限于 
dnorm()。 之 所 以 如 此 ， 是 因为 我 们 没有 针对 每 一 种 情况 来 写 不 同 的 函数 得 到 硬 编码 
值 ， 而 是 写 了 一 个 能 够 根据 不 同情 况 智 能 传递 参数 的 函数 。 
如 果 你 非常 非常 仔细 地 观察 图 13-6， 可 能 会 看 见 阴影 区 域 并 没有 和 我 们 给 出 的 边界 
范围 完全 对 齐 。 这 是 因为 ggplot2 在 固定 区 间 上 计算 函数 值 时 做 了 个 数值 近似 ， 并 
且 这 些 区 间 没 有 完全 落 在 指定 的 范围 上 。 如 13.2 节 所 述 ， 我 们 可 以 通过 设置 stat _ 
function (n=200) 以 增加 内 插 点 数量 的 方式 来 提升 近似 的 效果 。 


13.4 ”绘制 网 络 图 


问题 
如 何 绘 制 一 个 网 络 图 ? 
方法 
使 用 igraph 包 。 要 绘制 网 络 图 ， 首 先 给 graph () 函数 传递 一 个 包含 所 有 边 的 向 量 ， 然 
后 绘制 结果 对 象 ( 见 图 13-7): 
# 首次 运行 可 能 需要 安装 包 ， 命令: install .packages ("igraph") 
library (igraph) 


# 指定 一 个 有 向 图 的 边 
gd <- graph(c(1,2, 2,3, 214, 1,4, 515, 3,6)) 
plot (gd) 


# 一 个 无 向 图 

gu <- graph(le(1,2, 2,3, 2,4, 1,4, 5,5, 31,6), directed=FALSE) 
# 不 画 标签 

plot (gu, vertex.label=NA) 





@ o 
@ | 


oe ” Wy 


13-7 左 图 : 一 个 有 向 图 右 图 : 一 个 没 画 节点 标签 的 无 向 图 
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这 是 两 个 图 对 象 的 结构 : 
str(gd) 
IGRAPH D--- 6 6 -- 


+ edges: 
[1] 1->2 2->3 2->4 1->4 5->5 3->6 


str (gu) 


IGRAPH U--- 6 6 -- 
+ edges: 
[1] 1-=2 2 一 3 2--4 1--4 5--5 3--6 


讨论 

在 网 络 图 中 ， 节 点 的 位 置 并 不 是 由 所 给 数据 确定 的 ， 它 们 是 随机 放置 的 。 如 果 要 让 得 
到 的 图 更 可 读 ， 可 以 在 绘图 之 前 设置 随机 数 种 子 。 比 如 ， 可 以 尝试 不 同 的 随机 数 种 子 
直到 得 到 一 个 比较 满意 的 结果 : 


set.seed ) 
plot (gu) 


也 可 以 从 数据 框 中 直接 生成 图 。 使 用 数据 框 的 前 两 列 ， 并 且 每 一 列 确定 两 个 节点 相 
连 。 在 下 一 个 例子 中 《〈 见 图 13-8) ， 我 们 将 使 用 这 种 结构 的 数据 集 madmen2。 我 们 还 
会 使 用 Fruchterman-Reingold 布局 算法 。 该 算法 的 主要 思想 是 所 有 节点 之 间 都 有 电磁 
斥 力 ， 但 是 连接 节点 的 边 像 弹簧 一 样 ， 会 把 相应 的 节点 拉 在 一 起 : 











L 
13-8 ”从 数据 框 生成 的 有 向 图 ， 布 局 算法 为 Fruchterman-Reingold 算法 
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library (gcookbook) 间 为 了 使 用 数据 集 


madmen2 
Namel Name2 
Rbe Drexler Peggy Olson 
Allison Don Draper 
Arthur Case Betty Draper 


# 从 数据 集中 生成 图 对 象 
g <- graph.data.frame (madmen2, directed=TRUE) 


# 移 除 多 余 的 空白 边 


par (mar=c (0,0,0,0)) 


plot(g, layout=layout.fruchterman.reingold, vertex.size=8, edge.arrow,.size=( .5, 
vertex.1label=NA) 


也 可 以 从 数据 框 生成 无 向 图 。madmen 数据 集中 一 行 就 可 以 表示 一 条 边 ， 因 为 对 于 无 向 
图 来 说 方向 是 没有 意义 的 。 现 在 ， 我 们 使 用 圆圈 布局 〈 见 图 13-9): 


g <- graph.data.frame (madmen, directed=FALSE) 
par (mar=c (0,0,0,0)) 井 移 除 多 余 的 空白 边 


plot(g, layout=layout.circle, vertex.size=8, vertex.label=NA) 









































13-9 从 数据 框 生成 的 圆 形 布局 的 无 向 图 
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另 见 


更 多 关于 图 像 输出 参数 的 信息 ， 参 见 ?plot .igraph。 关 于 布局 选项 的 参数 ， 参 见 


?igraph: :layout。 


igraph 的 一 个 替代 选择 是 Rgraphviz， 该 包 是 Graphviz (一 个 绘制 网 络 图 的 开源 库 ) 的 
前 端 。 它 的 优点 是 能 更 方便 地 处 理 标 签 ， 而 且 也 更 容易 控制 布局 。 但 是 它 比较 难 安 


装 。Rgraphviz 由 Bioconductor 系统 库 维护 。 


13.5 ”在 网 络 图 中 使 用 文本 标签 


问题 
如 何在 网 络 图 中 使 用 文本 标签 ? 


方法 


边 和 节点 可 能 都 有 名 字 ， 但 默认 时 这 些 名 字 可 能 没有 被 当 作 标签 。 为 了 设置 标签 ， 可 
以 给 vertex.1abel 参数 传递 一 个 命名 向 量 ( 见 图 13-10): 


library (igraph) 

library (gcookbook) # 为 了 使 用 数据 集 

# 复制 madmen 并 删除 偶数 行 

m <- madmen[1l:nrow(madmen) $$ == 1, ] 
g <- graph.data.frame (m, directed=FALSE) 


# 输出 节点 名 称 
V (9g) $name 


[1] "Betty Draper" "Don Draper" 


[5] "Lane Pryce" "Peggy Olson" 
[9] "Sal Romano" "Henry Francis" 
[13] "Faye Miller" "Megan Calvet" 
[17] "Hildy" "Franklin" 


[21] "Duck Phillips" "Playtex bra model" "Ida Blankenship" 


[25] "Vicky" "Kitty Romanon 


plot(g, layout=layout.fruchterman.reingold, 


"Harry Crane" 
"Pete Campbell" 
"Allison" 
"Rachel Menken" 
"Rebecca Prycen 


vertex.size = 47 并 让 节点 更 
Vertex ,label = V(g)Sname， # 设置 标签 
vertex.label.cex = EF # 小 号 字体 
vertex.label.dist = # 标签 和 节点 的 位 置 错开 


vertex.label.color = "black") 
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"Joan Holloway" 
"Roger Sterling" 
"Candacen 
"Suzanne Farrell" 
"Abe Drex1lern 
"Mirabelle Ames" 





Mirabelle Ames 
© 


Ida Blankenship 
© 
Roger Sterling 
@ 
Joan Holloway 


Vicky 
© © 


Franklin 
© 


Playtex bra model 
© Abe Drexler 


Pete Campbell 


和 ~ Peggy Olson 


-@ 
Duck Phillips 
© 





Sal Romarnkitty Romano 


Rebecca Pryce 
© 
Lane Pryce 
6 
Hildy 
© 
“Harry Crane 
名 
Henry Francis 
四 
Betty Draper 
包 Megan Calvet 
以 / Suzanne Farrell 
Allison hon/Draper -©@ 
~™ ~ Faye Miller 
Rachel Menken ® 
9 hile 
® 














13-10“ 带 有 文本 标签 的 网 络 图 
讨论 


另 一 种 能 得 到 相同 效果 的 方法 是 修改 绘图 对 象 ， 这 样 就 不 用 给 plot () 函数 传递 参数 
值 了 。 此 时 ， 可 以 使 用 V() $xxx <- 来 代替 vertex.xxx 参数 传递 值 。 比 如 ， 下 面 的 代 


码 可 以 得 到 和 之 前 代码 相同 的 输出 。 


# 这 和 之 前 的 代码 是 等 价 的 

V(g) $size <- 4 

V(g) $label <- V(g) $name 
Vl(g)$label.cex <- 0. 
V(g)$1label.dist <- 0.4 

V(g) $label.color <- "black" 


# 设置 整个 图 的 属性 


g$layout <- layout.fruchterman.reingold 


plot (g) 


同样 ， 也 可 以 设置 边 的 属性 ， 使 用 E() 函数 或 者 给 edge.xxx 参数 传递 相应 的 值 ( 见 图 13-11)。 


# 查看 边 
E(g) 
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# 将 几 个 边 的 名 字 冉 值 为 ww 
E(9) [c(2,11,19)]$label <— "M" 


# 将 所 有 边 颜 色 设置 为 灰色 ， 然 后 把 其 中 几 个 变 为 红色 
E(g) $color <- "grey70" 
E(g) [ce(2,11,19)]$color <- "red" 








plot (g) 
Sal Romargitty Romano 
©@—M-©® Rebecca Pryce 
© 
Los 
Mirabelle Ames Ida Blankenship | 
© Hildy 
全 O 
Roger Sferling Harry Crane 
© O 
Joan Holloway Vicky Henry Francis 
© © © 
Franklin 
Betty Draper 
Sy Megan Calvet 


| 


© 
Suzanne Farrell 
Allison Wh “一 全 
©— -一季 一 





Playtex bra model 
© Abe Drexler 
© Faye Miller 
Pete Campbell RachelMenken © 
© Peggy Olson © Gandace 
-@ [9) 
Duck Phillips 
© 
13-11 ” 带 有 文本 标签 和 彩色 边 的 网 络 图 


另 见 
查阅 ?igraph.plotting 来 获取 igraph 包 中 更 多 的 绘图 参数 。 


13.6 ”如 何 绘制 热 图 


问题 
如 何 绘制 热 图 ? 
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方法 


使 用 geom tile() 或 者 geom raster()， 并 将 一 个 连续 变量 映射 到 fi11 上 。 我 们 将 
使 用 presidents 数据 集 ， 它 是 一 个 时 间 序 列 对 象 而 不 是 数据 框 。 


Presidents 


1945 
1946 
1973 
1974 


str (presidents) 


Qtrl Qtr2 Qtr3 Qtr4 


NA 
63 


68 
28 


87 
50 


44 
25 


82 
43 


40 
24 


75 
32 


2 了 
24 


Time-Series [1:120] from 1945 to 1975: NA 87 82 75 63 50 43 32 35 60 ... 
我 们 首先 将 它 转化 为 ggplot () 可 用 的 数据 框 格式 ， 其 中 的 列 都 是 数值 形式 的 。 


pres _ rating <- data.frame( 
as.numeric (presidents), 


rating 
year 
quarter 


) 


pres rating 


i 


rating year quarter 


NA 1945 
87 1945 
82 1945 


25 1974 
24 1974 
24 1974 


1 
2 
3 
2 


3 
4 


as.numeric (floor (time (presidents))), 
as,numeric(cycle (presidents)) 


现在 我 们 可 以 使 用 geom_tile() 或 geom_raster() 来 绘图 ( 见 图 13-12)。 简 单 地 将 几 


个 变量 分 别 映射 到 x, y 和 fi11: 


# 基础 图 形 
p <- ggplot (pres rating, aes (x=year, y=quarter, fill=rating)) 


# 使 用 geom tile() 


P + geom tile() 


# 使 用 geom raster() 看 起 来 一 样 ， 但 效率 咯 高 


p + geom raster () 

















让 
13-12 热 图 ， 数 据 中 的 缺失 信用 灰色 来 代替 
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a geom tile() 和 geom raster() 的 结果 看 起 来 一 样 ， 但 实际 上 ， 它 们 是 有 
Eyl 区 别 的 。 阅 读 6.12 节 来 获取 更 多 相关 主题 的 信息 。 


讨论 

为 了 更 有 效 地 表达 信息 ， 你 可 能 需要 自 定 义 热 图 的 外 观 。 在 本 例 中 ， 我 们 倒转 > 轴 ， 
这 样 顺序 就 是 从 上 到 下 了 ， 并 且 我 们 在 x 轴 上 每 隔 4 年 添加 一 个 坐标 刻度 值 来 表示 一 
个 总 统 任期 。 此 外 ， 我 们 更 换 之 前 的 颜色 标 度 ， 使 用 scale fill _ gradient2() 调 色 
板 ， 该 调 色 板 可 以 设置 一 个 中 点 和 两 个 端点 的 色彩 值 〈 见 图 13-13 ): 


Pp + geom tile() + 











scale x continuous (breaks = seq(1940, 6, by = 4)) + 
scale y reverse() + 
scale fill gradient2 (midpoint=50, mid="grey70", limits=c(0, )) 
rating 
1= 100 
52 75 
3 50 
8- 
25 
Pe 
0 
1945 1949 1953 1957 1961 1965 1905 1973 
year 





图 13-13 ”一 个 自 定义 外 观 的 热 图 
另 见 
如 果 想 使 用 不 同 的 调 色 板 ， 参 见 12.6 节 。 


13.7 ”绘制 三 维 散 点 图 


问题 
如 何 绘制 一 个 三 维 散 点 图 ? 


方法 

我 们 使 用 rgl 包 ， 该 包 提 供 了 OpenGL 图 形 库 的 3D 绘图 接口 。 要 画 三 维 散 点 图 ( 见 
图 13-14)， 可 以 使 用 plot3d() 函数 。 其 输入 参数 可 以 是 两 种 形式 : (1) 一 个 数据 框 ， 
前 三 列 分 别 表 示 x、y、z 的 坐标 (2〉 直 接 传递 三 个 向 量 ， 分 别 表示 x、y、z 的 坐标 。 


# 首次 运行 可 能 需要 安装 包 ， 命令 : install .packages ("rg1") 
library (rgl) 
plot3d (mtcars$wt, mtcars$disp, mtcars$mpg, type="s", size=0 .75, lit=FALSE) 


读 图 者 可 以 通过 点 击 和 拖 动 鼠标 来 旋转 图 形 ， 滑 动 鼠标 滚轮 来 缩放 图 形 。 
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mtcars$mpg 








mtcars$wt 











图 13-14 ”一 个 三 维 散 点 图 
这 默认 情况 下 ，plot3d () 函数 使 用 立方 体式 的 点 ， 这 不 大 适合 保存 为 PDF。 
Ey 为 了 改进 外 观 ， 我 们 使 用 type="s" 来 选择 球形 点 ，size=0.75 让 点 变 小 

一 由， 一些 ，]it=FALSE 来 关闭 3D 灯光 ( 否则 点 会 闪闪 发 亮 ), 


讨论 
三 维 散 点 图 比较 难 解释 ， 因 此 大 多 时 候 使 用 二 维 散 点 图 可 能 会 更 好 。 这 同样 也 意味 
着 ,还 有 很 大 改进 空间 可 以 让 3D 散 点 图 更 容易 被 理解 。 


在 图 13-15 中 ， 我 们 添加 数值 线段 来 增强 空间 点 的 位 置 表达 力度 : 
# 交错 出 现 两 个 向 量 的 值 


interleave <- function(vl, v2) as.vector (rbind(vl,v2)) 


# 绘制 点 
plot3d (mtcars$wt, mtcars$disp, mtcars$mpg, 
xlab="Weight", ylab="Displacement", zlab="MPG", 
Size=,715, type="s", lit=FALSE) 
# 添加 线段 
segments3d (interleave (mtcars$wt, mtcars$wt), 
interleave (mtcars$disp, mtcars$disp), 


interleave (mtcars$mpg, min (mtcarsSmpg) ) ， 
alpha=0.4，col="blue") 


可 以 微调 图 形 的 背景 和 坐标 轴 。 在 图 13-16 中 ， 我 们 改变 坐标 轴 刻 度 的 数目 、 添 加 刻 
度 值 ， 并 在 指定 的 边 添加 坐标 轴 标 签 ; 
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L 


# 不 画 坐 标 刻 度 和 标签 

plot3d (mtcars$wt, mtcars$disp, mtcars$mpg, 
xlab = Ws ylab pe zlab = wn7 
axes = FALSE, 
size=. 75, type="s", lit=FALSE) 


segments3d (interleave (mtcars$wt, mtcars$wt), 
interleave (mtcars$disp, mtcars$disp), 
interleave (mtcars$mpg, min (mtcarsSmpg) )， 


alpha = 0.4, col = "blue") 
# 绘制 盒子 
rgl.bbox (color="grey50", # 表面 颜色 为 grey60， 票 色 文 本 
emission="grey50", # 光照 颜色 为 grey50 


xlen=0，ylen=0，zlen=0) # 不 添加 刻度 


# 设置 默认 颜色 为 黑 


rgl.material (color="black") 


# 在 指定 边 添加 坐标 轴 标 签 。 可 能 的 值 类 似 于 "x--"，"x-+"，"x+-" 和 "X++n 





axes3d (edges=c ("x--", "y+-", "2z--"), 
ntick=6, # 每 个 轴 上 6 个 刻度 线 
cex=.75) # 较 小 的 字体 
# 添加 坐标 标签 。 'line' 指定 标签 和 坐标 轴 的 距离 。 
mtext3d ("Weight", edge="x--", line=2) 
mtext3d("Displacement", edge="y+-", line=3) 
mtext3d ("MPG", edge="z--", line=3) 








Weight 











13-15 一 个 给 每 个 点 添加 了 竖 直线 的 3D 散 点 图 
另 见 
查阅 ?plot3d 获取 控制 图 形 输出 的 更 多 选项 。 
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图 13-16 左 图 : 坐标 刻度 和 标签 重新 放置 的 三 维 图 “ 右 图 : 另 一 个 角度 的 视图 


13.8 在 三 维 图 上 添加 预测 曲面 


问题 

如 何在 一 个 三 维 散 点 图 上 添加 一 个 预测 曲面 ? 

方法 

首先 ， 我 们 需要 定义 一 些 功能 函数 来 得 到 模型 的 预测 值 : 


# 给 定 一 个 模型 ， 根 据 xvar 和 yvar 预测 zvar 
# 默认 为 变量 x 和 y 的 范围 ， 生 成 16x16 的 网 格 


predictgrid <- function (model, xvar, yvar, zvar, res = 16, type = NULL) { 
证 下 面 的 代码 对 lm、glm 以 及 其 他 模型 方法 都 适用 ， 
但 针对 其 他 模型 方法 时 可 能 需要 适当 调整 。 


ee <- range (model$model[ [xvar]]) 
yrange <- range (model$model[[yvar]]) 


res), 
res)) 


newdata <- expand.grid(x = seql(xrange[i], xrange[2], length.out 

y = seql(yrange[i], yrange[2], length.out 
names (newdata) <- cl(xvar, yvar) 
newdata[[zvar]] <- predict (model, newdata = newdata, type = type) 
newdata 

} 


# 将 长 数据 框 中 的 x，y，z 转化 为 列表 ， 

# 其 中 x，y 为 行列 值 ，z 为 矩阵 

df2mat <- function(p, xvar = NULL, yvar = NULL, zvar = NULL) { 
if (is.null (xvar)) xvar <- names (p) [1] 
if (is.null(yvar)) yvar <- names (p) [2] 
if (is.null(zvar)) zvar <- names (p) [3] 


x <- unique (P[[xvar]]) 

y <- unique (p[[yvar]]) 

z <- matrix(p[[zvar]], nrow = length(y), ncol = length (x)) 
m <- list(x,: y, Zz) 


names (m) <- cl(xvar, yvar, zvar) 
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m 


} 
# 交错 出 现 两 个 向 量 的 元 素 


interleave <- function(v1，v2) as.vector (rbind (vl1,v2)) 


利用 这 些 定义 好 的 功能 性 函数 ， 我 们 可 以 对 数据 生成 线性 模型 ， 然 后 利用 surface3d () 
函数 在 原 散 点 图 上 添加 网 格式 的 预测 图 ， 如 图 13-17 所 示 : 


library (rg1) 
# 复制 数据 集 


m <- mtcars 


# 生成 线性 模型 
mod <- lm(mpg ~ wt + disp + wt:disp, data = m) 


# 根据 wt 和 disp， 得 到 mpg 的 预测 值 
m$pred mpg <- predict (mod) 


# 根据 wt 和 disp 的 网 格 ， 得 到 mpg 的 预测 什 
mpgrid df <- predictgrid(mod, "wt", "disp", "mpg") 
mpgrid list <- df2mat (mpgrid df) 


# 根据 数据 点 绘图 
plot3d (m$wt, m$disp, m$mpg, type="s", size=0.5, lit=FALSE) 


# 添加 预测 点 ( 较 小 ) 

Spheres3d (m$wt, m$disp, m$pred mpg, alpha=0.4, type="s", size=0 .3, lit=FALSE) 
# 添加 表示 误差 的 线段 

segments3d (interleave (m$wt, m$wt), 


interleave (m$disp, m$disp), 
interleave (m$mpg, m$pred mpg), 
alpha=0.4, col="red") 








# 添加 预测 点 网 格 
surface3d (mpgrid list$wt, mpgrid list$disp, mpgrid list$mpg, 
alpha=0.4, front="lines", back="lines") 


mSsmpg 





mS$wt 











13-17 ”添加 了 预测 曲面 的 三 维 图 
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讨论 
我 们 可 以 调节 图 形 的 外 观 ， 如 图 13-18 所 示 。 我 们 还 可 以 逐一 添加 图 形 的 各 个 组 件 : 


plot3d (mtcars$wt, mtcars$disp, mtcars$mpg, 
xlab = "", ylab = "", zlab = "", 
axes = FALSE, 
size=.5, type="s", lit=FALSE) 


# 添加 预测 点 〈 殉 小 ) 
Spheres3d (m$wt, m$disp, m$pred mpg, alpha=0.4, type="s", size=0.5, lit=FALSE) 


# 添加 误差 线段 

segments3d (interleave (m$wt, ms$Swt)， 
interleave (mS$disp, m$disp), 
interleave (m$mpg, m$pred mpg), 


alpha=0 .4, col="red") 

# 添加 预测 值 网 格 

surface3d (mpgrid list$wt, mpgrid list$disp, mpgrid list$mpg, 
alpha=0.4, front="lines", back="lines") 

# 绘制 例子 | 
rgl.bbox (color="grey50", # 表面 颜色 为 grey60， 黑 色 文 本 
emission="grey50", # 光照 颜色 为 grey50 

xlen=0, ylen=0, zlen=0) # 不 画 刻 度 线 


# 对 象 默认 色 设 置 为 黑色 


rgl.material (color="black") 


# 在 指定 边 添加 坐标 轴 标 签 。 可 能 的 值 类 似 于 "x--"，"™x-+"，"x+-" 和 "x++" 


axes3d (edges=c ("x--", "y+t-", "2--"), 





ntick=6, # 每 个 轴 上 6 个 刻度 线 
Cex=.75) #” 较 小 字体 
# 添加 坐标 标签 。'line' 指定 标签 和 坐标 轴 的 距离 。 
mtext3d ("Weight", edge="x--", line=2) 
mtext3d ("Displacement", edge="y+-", line=3) 
mtext3d ("MPG", edge="z--", line=3) 
MPG 








5 
Weight 58 100 Displacement 





13-18” 自 定义 外 观 的 三 维 散 点 图 
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另 见 
输入 ?rgl.material 获取 更 多 关于 改变 曲面 图 外 观 的 信息 。 


13.9 保存 三 维 图 

问题 

如 何 保存 一 个 rgl 包 绘制 的 三 维 图 ? 

方法 

可 以 使 用 rgl .snapshot () 来 保存 rgl 包 绘制 的 位 图 。 它 会 精确 捕捉 屏幕 上 的 图 形 。 


library (rg1) 


plot3d (mtcars$wt, mtcars$disp, mtcars$mpg, type="s", size=0,]>, lit=FALSE) 
rgl.snapshot ('3dplot .png', fmt="'png'") 

也 可 以 使 用 rgl.postscript () 保存 为 PostScript 或 PDF 格式 文件 : 
rgl.postscript ('figs/miscgraph/3dplot.pdf', fmt='pdf') 
rgl .postscript('figs/miscgraph/3dplot.ps', fmt='ps') 


PostScript 和 PDF 输出 文件 并 不 支持 rgl 依赖 的 OpenGL 库 的 很 多 特性 。 比 如 ， 它 们 不 
支持 透明 度 ， 并 且 点 线 等 对 象 的 大 小 可 能 和 屏幕 上 表现 出 来 的 也 不 一 致 。 


讨论 

为 了 使 得 输出 的 图 片 更 加 可 读 ， 你 可 以 保存 当前 的 视角 ， 之 后 再 恢复 。 
# 保存 当前 视角 
view <- par3d("userMatrix") 


# 恢复 保存 的 视角 


par3d (userMatrix = view) 


为 了 将 视角 保存 为 代码 ， 你 可 以 使 用 dput () 函数 ， 然 后 将 输出 复制 粘贴 到 你 的 代码 中 : 


dput (view) 


structure (c(0.907931625843048, 0.267511069774628, -0.322642296552658, 
0, -0.410978674888611, 0.417272746562958, -0.810543060302734, 

0, -0.0821993798017502, 0.868516683578491, 0.488796472549438, 

0, 0, 0, 0, 1), .Dim = c(4L, 4L)) 


一 旦 有 了 userMatrix 的 文本 表达 式 ， 将 下 面 的 代码 添加 到 你 的 脚本 中 即 可 : 


View <- Structure(c(0.9079 48， 28, 
* < " ’ ! < 7 


f 人 rr Hs 7 M+ 一 7 
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了 )x .Dim = c(4L, iL)) 


par3d(userMatrix = view) 


13.10 ”三维 图 动画 


问题 

如 何 让 一 个 三 维 图 根据 视角 的 移动 形成 动画 ? 

方法 

旋转 三 维 图 能 够 更 完整 、 多 方位 地 观察 数据 。 可 以 在 play3d() 中 使 用 spin3d() 来 生 
成 三 维 动画 : 


library (rg1) 
plot3d (mtcars$wt, mtcars$disp, mtcars$mpg, type="s", size= 5, lit=FALSE) 


play3d (spin3d()) 
讨论 
默认 地 ， 图 像 会 绕 着 z 轴 ( 竖 直 的 轴 ) 旋转 ， 直 到 你 给 R 发 送 一 个 停止 的 指令 。 


你 可 以 改变 转轴 、 转 速 和 持续 时 间 : 
# 绕 x 轴 转动 ， 每 分 钟 4 转 ， 持 续 20 秒 钟 


play3d (spin3d (axis=c (1,0,0), rpm=4), duration=20) 


可 以 使 用 movie3d() 来 保存 动画 ， 方 法 和 play3d() 一 样 。 它 将 会 生成 一 系列 .png 格 
式 的 图 片 文 件 ， 每 个 文件 代表 一 帧 ， 然 后 可 以 利用 ImageMagick 软件 提供 的 convert 
命令 将 这 些 文件 合并 转化 为 .gif 动画 文件 。 


这 将 会 生成 持续 15 秒 ， 每 秒 50 帧 的 动画 : 
# 绕 z 轴 转动 ， 每 分 钟 4 转 ， 持 续 15 秒 


movie3d (spin3d (axis=c(0,0,1), rpm=4), duration=15, fps=50) 
输出 的 文件 将 会 被 存放 在 一 个 临时 文件 夹 中 ， 地 址 名 会 在 R 窗口 中 输出 。 


如 果 你 不 想 利 用 ImageMagick 将 输出 的 图 片 转换 为 .gif， 可 以 设置 convert=FALSE， 
然后 用 其 他 软件 将 这 一 系列 的 .png 文件 转换 为 动画 。 


13.11 绘制 谱系 图 


问题 
如 何 绘制 一 个 谱系 图 (Dendrogram) 来 观察 数据 是 如 何 层次 聚 类 的 ? 
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方法 
使 用 hclust () 并 画 出 它 的 结果 。 这 可 能 需要 一 些 数据 预 处 理工 作 ， 在 本 例 中 ， 我 们 
首先 要 从 countries 数据 集中 提取 年 份 为 2009 年 的 子 集 ， 为 简单 起 见 ， 还 要 把 包含 
NA 的 行 全 部 删除 ， 然 后 随机 选择 25 行 。 

library (gcookbook) # 为 了 使 用 数据 集 


# 得 到 2009 年 的 数据 
Cc2 <- subset (countries, Year== ) 


# 去 掉 含有 NA 的 行 
c2 <- c2[complete.cases(c2), |] 


# 随机 选择 25 个 国家 

# 〈 设 定 随机 种 子 保 证 可 重复 性 ) 

set .seed1(201) 

c2 <- c2[sample(l:nrow(c2), )，] 


C2 

Name Code Year GDP laborrate healthexp infmortality 
6731 Mongolia MNG 2009 1690.4170 72.9 74.19826 27.8 
1733 Canada CAN 2009 39599.0418 67.8 4379.76084 $a2 
5966 Macedonia, FYR MKD 2009 4510.2380 54.0 313.68971 10.6 
10148 Turkmenistan TKM 2009 3710.4536 68.0 77.06955 48.0 


注意 到 行 名 (第 一 列 ) 实质 上 是 随机 数 ， 这 是 因为 行 是 随机 选择 出 来 的 。 在 画 谱系 图 之 
前 我 们 还 需要 再 做 一 些 事情 。 首 先 ， 我 们 需要 设 定 行 的 名 字 一 一 我 们 有 叫做 Name 的 列 ， 
但 行 名 却 是 一 些 随机 数 〈 我 们 不 是 经 常 使 用 行 名 ， 但 是 对 于 hclust () 函数 ， 行 名 是 必 
不 可 少 的 )。 接 下 来 ， 还 要 去 掉 在 聚 类 中 不 需要 的 列 ， 这 些 列 是 Name、Code 和 Year。 


rownames (c2) <- c2$Name 


C2 <- c2[7;4;7] 
c2 

GDP laborrate healthexp infmortality 
Mongolia 1690.4170 72.9 74.19826 27.8 
Canada 39599.0418 67.8 4379.76084 4 
Macedonia, FYR 4510.2380 54.0 313.68971 10.6 
Turkmenistan 3710.4536 68.0 77.06955 48.0 


GDP 的 取 值 比 infmortality 大 几 个 数量 级 ， 由 于 这 个 原因 ，infmortality 在 聚 类 中 
的 作用 相对 于 GDP 来 说 就 会 变 得 可 以 忽略 不 计 ， 这 可 能 不 是 我 们 想 要 的 。 为 了 解决 这 
个 问题 ， 要 对 数据 进行 标准 化 : 

c3 <- scale(c2) 

c3 
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GDP laborrate healthexp infmortality 
Mongolia -0.6783472 1.15028714 -0.6341393599 -0.08334689 
Canada 1.7504703 0.59747293 1.9736219974 -0.88014885 


Macedonia, FYR -0.4976803 -0.89837729 -0.4890859471 -0.68976254 
Turkmenistan -0.5489228 0.61915192 -0.6324002997 0.62883892 
attr(,"scaled:center") 
GDP laborrate healthexp infmortality 
12277.960 62.288 1121.198 30.164 
attr(, "scaled:scale") 
GDP laborrate healthexp infmortality 
15607.852864 9.225523 1651.056974 28.363384 


scale () 函数 默认 是 将 每 一 列 相对 于 其 标准 差 进行 标准 化 ， 但 也 可 以 使 用 其 他 方法 。 
至 此 ， 我 们 已 经 做 好 了 画 谱 系 图 的 准备 ， 结 果 如 图 13-19 所 示 : 


hc <- hclust (dist (c3)) 

















# 画 树 状 图 
plot (hc) 
# 对 齐 文本 
plot (hc, hang = -1) 
Cluster Dendrogram Cluster Dendrogram 
十 = 
三 本 二 Mm 
和 - ; - 
UN 
325 il 
3 ' 
ds d3 
hclust (" "complete") hclust (*, “complete") 








图 13-19 左 图 : 谱系 图 右 图 : 文本 对 齐 的 谱系 图 
讨论 
聚 类 分 析 是 在 维 空间 中 把 点 分 配 到 类 的 一 种 简单 方法 在 这 个 例子 中 是 四 维 )。 层 


次 聚 类 分 析 则 将 每 组 分 成 两 个 更 小 的 组 ， 在 这 里 可 以 用 谱系 展示 。 在 层次 聚 类 的 过 程 
中 有 很 多 可 以 控制 的 参数 ， 可 能 有 不 止 一 种 “正确 ”的 方法 可 以 用 来 分 析 你 的 数据 。 


首先 ， 我 们 用 scale () 的 默认 设置 标准 化 了 数据 。 你 可 以 用 不 同 的 方法 标准 化 数据 ， 
或 者 不 标准 化 《在 这 个 数据 集 里 面 ， 不 标准 化 数据 会 导致 6DP 相对 于 其 他 变量 占 主 导 
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地 位 ， 如 图 13-20 所 示 )。 
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d2 
hclust (*, "complete") 





13-20 ”未 标准 化 数据 得 到 的 谱系 图 ( 注意 Height 的 值 很 大 ， 这 主要 是 没有 标准 化 的 GDP 造成 的 ) 
对 于 距离 的 计算 ,我们 使 用 的 是 默认 的 方法 
是 点 与 点 之 间 的 欧 氏 距离 ; 还 有 其 他 的 方法 ， 比 如 "maximum", "manhattan", 





"canberra", "binary" 和 "minkowski"。 


hclust () 函数 提供 了 几 种 做 聚 类 分 析 的 方法 ， 默 认 的 方法 是 "complete" ; 其 他 可 用 
的 方法 包括 "ward"，"single"，"average"，"mcquitty"，"median" 和 "centroid"。 


另 见 


输入 ?hclust 来 获取 更 多 关于 不 同 聚 类 方法 的 信息 。 


13.12 绘制 向 量 场 


问题 
如 何 绘制 一 个 向 量 场 (vector field)? 


方法 


使 用 geom segment () 函数 。 在 这 个 例子 中 ， 我 们 用 的 是 isabel 数据 集 。 


library (gcookbook) # 数据 集 
isabel 
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Vz 





"euclidean"， 这 个 方法 计算 的 


-83.00000 41.70000 0.035 NA NA NA NA NA 
-83.00000 41.62786 0.035 NA NA NA NA NA 
-83.00000 41.55571 0.035 NA NA NA NA NA 


-62.04208 23.88036 18.035 -12.54371 -5.300128 -0.045253485 -66.96269 13.61749 
-62.04208 23.80822 18.035 -12.56157 -5.254994 -0.020277001 -66.98840 13.61646 
-62.04208 23.73607 18.035 -12.78071 -5.259613 0.005555035 -67.00575 13.82064 


x 和 y 分 别 是 经 度 和 纬度 ，z 是 高 度 ， 单 位 是 千 米 。Vx、vy、vz 是 风速 分 量 在 各 个 方 
向 的 取 值 ， 单 位 是 米 每 秒 ，speed 是 风速 。 
高 度 (z) 范围 是 0.035 一 18.035 km。 在 本 例 中 ， 只 使 用 了 最 低 高 度 的 切片 数据 。 
我 们 使 用 geom_segment () 来 绘制 这 些 向 量 〈 见 图 13-21)。 每 段 都 有 一 个 起 点 和 一 个 
终点 。 我 们 用 x 和 y 值 作为 每 段 的 起 点 ， 然 后 在 此 基础 上 分 别 加 上 vx 和 vy 的 一 个 比 
例 ， 以 此 作为 终点 。 如 果 不 按 比例 缩小 这 些 取 值 ， 线 条 就 会 变 得 很 长 : 

islice <- subset (isabel, z == min(z) 

ggplot (islice, aes (x=x, y=y)) + 


geom segment (aes (xend = x + vx/50, yend = y + vy/50), 
size = ) # 线段 0.25mm 粗 





40 - 


30 -~ 








0 ' ) 1 
80 -75 -70 -65 











图 13-21 向量 图 的 首次 尝试 一 一 分 辨 率 太 高 ， 但 相对 于 较 低 的 分 辨 率 ， 它 揭示 出 了 一 些 有 趣 的 模式 
这 个 向 量 场 有 两 个 问题 : 数据 分 辩 率 太 高 不 容易 阅读 ， 而 且 每 段 没 有 箭头 表示 方向 。 为 了 
降低 数据 的 分 辨 率 ， 定 义 一 个 函数 every_n () ， 在 数据 的 每 n 个 值 中 保留 一 个 ， 其 他 的 去 掉 。 


# 选择 z 取 值 等 于 z 的 最 小 值 的 部 分 数据 





islice <- subset (isabel, z == min(z)) 
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划 向 量 x 中 每 'by' 个 只 里 面 保留 一 个 
every n <- function(x, by = 2) { 
x <- sort(x) 
x[seq(l, length(x), by = by)] 
} 


# x 和 y 每 四 个 值 保留 一 个 
keepx <- every n(unique (isabel$x), by=4) 
keepy <- every n(unique (isabel$y), by=4) 


# 保留 那些 x 值 在 keepx 中 并 且 y 值 在 keepy 中 的 数据 


islicesub <- subset (islice, x %in% keepx & y Sin% keepy) 


现在 我 们 已 经 得 到 了 数据 的 一 个 子 集 ， 可 以 画 出 带 箭头 的 图 形 ， 如 图 13-22 所 示 : 


# 使 用 arrow()， 需 要 加 载 grid 包 
library (grid) 


# 用 子 集 画 图 ， 第 头 的 长 度 为 0.1 cm 
ggplot (islicesub, aes (x=x, y=y)) + 
geom segment (aes (xend = x+vx/50, yend = y+tvy/50), 
arrow = arrow (length = unit(0.], "cm")), size = 0.25) 























13-22 ” 带 箭头 的 向 量 图 

讨论 

箭头 的 一 个 影响 是 ， 短 的 向 量 会 表现 得 比 它 实际 长 度 的 比例 更 大 ， 这 会 导致 曲解 数据 ， 
为 了 减轻 这 种 影响 ， 把 速度 映射 到 其 他 属性 上 可 能 是 有 用 的 ， 如 size( 线 的 粗细 )、alpha 
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(透明 度 ) 或 colour (颜色 )。 这 里 ， 把 速度 映射 到 透明 度 Sh ( 见 图 13-23 左 图 ): 
# 'speed"' 列 包 含 z 的 部 分 ， 计 算 水 平 速度 


islicesub$speedxy <- sqrt(islicesubS$vx^2 + islicesubSvy^2) 


# 映射 速度 到 透明 度 alpha 
ggplot (islicesub, aes (x=x, y=y)) + 
geom segment (aes (xend = x+vx/50, yend = y+vy/50, alpha = speed), 
arrow = arrow (length = unit(0.1,"cm")), size = 0.6) 


下 面 ， 我 们 把 速度 映射 到 颜色 colour 上 。 我 们 还 加 入 美国 的 部 分 地 图 并 且 使 用 coord_ 
cartesian() (没有 这 部 分 ， 会 展示 整个 美国 地 图 ) 放大 感 兴趣 的 区 域 ， 如 图 13-23 右 图 所 示 : 
# 得 到 美国 地 图 数据 


usa <- map data ("usa") 


# 把 数据 映射 到 颜色 上 ， 颜 色 从 "grey80" 到 "darkred" 
ggplot (islicesub, aes (x=x, y=y)) + 
geom segment (aes (xend = x+vx/50, yend = ytvy/30, colour = speed), 
arrow = arrow (length = unit(0,1,"cm")), size = 0.6) + 
scale colour continuous (low="grey80", high="darkred") + 
geom path (aes (x=long, y=lat, group=group), data=usa) + 
coord cartesian(xlim = range (islicesub$x), ylim = range (islicesub$y)) 





一 1o 
一 20 
一 30 
一 40 
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13-23” 左 图 : 速度 映射 到 透明 度 上 的 向 量 场 ” 右 图 : 速度 映射 到 颜色 上 的 向 量 场 
isabel 数据 集 是 一 个 三 维 数据 ， 所 以 我 们 可 以 画 一 个 分 面 的 图 形 ， 如 图 13-24 所 示 。 
因为 每 个 分 面 都 很 小 ， 所 以 要 用 比 之 前 更 稀 疏 的 子 集 。 

# x 和 y 中 每 5 个 值 保留 1 个 ，z 中 每 两 个 值 保留 一 个 


keepx <- every n(unique (isabel$x), by=5) 
keepy <- every nl(unique (isabel$y), by=5) 
keepz <- every n(uniqgue (isabel$z), by=2) 


isub <- subset (isabel, x %in% keepx & y %jings keepy & z %in$% keepz) 
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ggplot (isub, aes (x=x, y=y)) + 
geom segment (aes (xend = x+tvx/50, yend = y+vy/50, colour = speed), 
arrow = arrow (length = unit(0,1,"cm")), size = 0.5) + 
scale colour continuous (low="grey80", high="darkred") + 
facet wrap( ~ z) 








13-24 ”以 z 分 面 的 风速 向 量 场 图 


另 见 
如 果 你 想 用 其 他 调 色 板 ， 参 见 12.6 节 。 
参阅 8.2 节 获得 更 多 关于 扩大 图 形 某 部 分 的 信息 。 


13.13 绘制 QQ 


问题 

如 何 绘制 QQ 图 来 比较 经 验 分 布 和 理论 分 布 ? 

方法 

使 用 qqnorm() 和 正 态 分 布 比较 。 给 qqnorm() 一 个 数值 向 量 ， 在 此 基础 上 用 qqline () 
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加 上 理论 分 布 〈 见 图 13-25 ): 


library(gcookbook) # 为 了 使 用 数据 集 


# height 的 Q0 图 
qqnorm (heightweight$heightIn) 
qqline (heightweightSheightIn) 


# age 的 QQ 图 
qqnorm (heightweight$ageYear) 
qqline (heightweight$ageYear) 
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13-25 ” 左 图 : height 的 QQ 图 ， 和 正 态 分 布 很 接近 ” 右 图 : age 的 QQ 图 ， 不 是 正 态 分 布 


讨论 


heightIn 的 点 很 接近 理论 线 ， 这 意味 着 它 的 分 布 很 接近 正 态 分 布 。 相 反 ，ageYear 的 
点 远离 理论 线 ， 特 别 是 在 左面 ， 这 表明 分 布 是 有 偏离 的 。 此 外 ， 直 方 图 在 探索 数据 的 


分 布 上 也 是 有 帮助 的 。 


另 见 
查看 ?qqplot 获得 更 多 将 数据 和 其 他 〈 非 正 态 ) 理论 分 布 进行 比较 的 信息 。 
ggplot2 有 一 个 stat_qq() 函数 ， 但 是 没有 提供 画 QQ 线 的 简单 方法 。 


13.14 ”绘制 经 验 累 积分 布 函 数 图 


问题 
如 何 画 一 个 数据 集 的 经 验 累 积分 布 函数 图 (ECDF)? 
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方法 
使 用 stat ecdf()( 见 图 13-26): 
library (gcookbook) # 为 了 使 用 数据 集 


# heightIn 的 ecdf 
ggplot (heightweight, aes (x=heightIn)) + stat ecdf() 


# ageYear 的 ecdf 
ggplot (heightweight, aes (x=ageYear)) + stat ecdf() 














60 65 
heightin 


13-26 ” 左 图 : height 变量 的 ECDF 右 图 : age 变量 的 ECDF 

讨论 

ECDF 表明 了 在 观测 数据 中 ， 小 于 或 等 于 给 定 x 值 的 观测 所 占 的 比例 。 因 为 是 经 验 的 ， 
所 以 累积 分 布线 在 每 个 有 一 个 或 者 更 多 观测 值 的 x 值 处 产生 一 个 阶梯 。 


13.15 ”创建 马赛 克 图 

问题 

如 何 绘 制 一 个 马赛 克 图 来 可 视 化 一 个 列 联 表 ? 

方法 

使 用 vcd 包 里 的 mosaic() 函数 。 在 这 个 例子 中 ， 我 们 使 用 的 是 UBAdmission 数据 集 ， 
这 个 数据 集 是 一 个 三 维 的 列 联 表 。 首 先 用 不 同 的 方法 观察 一 下 这 个 数据 集 : 


UCBAdmi ssions 
| 2 Dept =A 
Gender 
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Admit Male Female 
Admitted 512 89 
Rejected 313 19 


。 [four other Depts] 


:+ Dept = 了 
Gender 
Admit Male Female 


Admitted 22 24 
Rejected 351 317 


# 显示 " 平 销 "后 的 列 联 表 
ftable (UCBAdmi ssions) 


Dept A B 5C D E F 
Admit Gender 


Admitted Male 512 353 120 138 53 22 
Female 89 17 202 131 94 24 
Rejected Male 313 207 205 279 138 351 
Female 19 8 391 244 299 317 


dimnames (UCBAdmi ssions) 


$Admit 
[1] "Admitted" "Rejected" 


$Gender 
[1] "Male" "Femalen 


$Dept 

[1] WAn "Bp" RCR nD"” bd bd 
三 个 维度 分 别 是 Admit、Gender 和 Dept。 为 了 可 视 化 这 些 变量 之 间 的 关系 〈 见 图 13- 
27)， 使 用 mosaic() 函数 ， 输 入 的 公式 要 包含 在 分 割 数据 中 使 用 的 变量 。 

# 可 能 需要 先 安 装 包 ，install.packages ("vcd") 

liprary (ved) 


# 按照 先 Admit 然后 Gender 再 Dept 的 顺序 分 割 数据 
mosaic( ~ Admit + Gender + Dept, data=UCBAdmissions) 


注意 ，mosaic () 是 按照 变量 提供 的 顺序 来 分 割 数据 的 : 首先 是 录取 状态 ， 然 后 是 性 
别 ， 最 后 是 系 。 从 图 中 可 以 看 出 ， 被 拒绝 的 申请 者 明显 比 被 录取 的 多 。 除 此 之 外 ， 在 
被 录取 的 人 中 ， 男 性 比 女 性 多 ， 但 在 被 拒绝 的 人 中 ， 男 性 和 女性 的 比例 差不多 。 但 是 
很 难 比较 每 个 系 的 情况 。 不 同 的 分 割 数 据 的 顺序 可 能 会 揭示 不 一 样 的 有 趣 的 信息 。 


为 外 一 个 观察 数据 的 方式 是 按照 系 别 、 性 别 和 录取 状态 的 顺序 分 割 数 据 ， 如 图 13-28 
所 示 。 这 时 ， 录 取 状 态 是 最 后 一 个 分 离 的 变量 ， 所 以 当 按 照 系 别 和 性 别 分 离 数 据 之 
后 ， 每 组 中 录取 和 拒绝 的 单元 正好 在 彼此 的 旁边 。 
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mosaic( ~ Dept + Gender + Admit, data=UCBAdmissions, 
highlighting="Admit", highlighting fill=c("lightblue", "pink"), 
direction=e("v","h","v")) 
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13-27 UC-Berkeley 招生 数据 的 马赛 克 图 一 一 每 个 和 矩形 的 面积 和 对 应 的 人 数 成 正比 
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13-28 ” 按 男 一 种 变量 顺序 分 割 数据 的 马赛 克 图 : 首先 系 别 ， 然 后 性 别 ， 最 后 录取 状态 

我 们 还 使 用 颜色 指定 了 高 亮 的 变量 (Agmit )。 

讨论 

在 前 面 的 例子 中 我 们 还 为 每 个 分 割 的 变量 指定 了 方向 。 其 中 ， 第 一 个 变量 Dept 是 垂直 


分 割 的 ， 第 二 个 变量 Gender 是 水 平分 割 的 ， 第 三 个 变量 admit 是 垂直 分 割 的 。 我 们 选择 
这 三 个 方向 的 原因 是 在 这 个 例子 中 ， 这 样 做 会 比较 容易 比较 每 个 系 里 面 男女 的 差别 。 
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我 们 还 可 以 使 用 不 同 的 分 割 方向 ， 如 图 13-29 和 图 13-30 所 示 : 


# 另 一 种 可 能 的 分 割 方向 

mosaic( ~ Dept + Gender + Admit, data=UCBAdmissions, 
highlighting="Admit", highlighting fill=c("lightblue", "pink"), 
direction=c("v", "v", "h")) 


# 这 个 顺序 比较 男 和 女 不 是 很 容易 

mosaic( ~ Dept + Gender + Admit, data=UCBAdmissions, 
highlighting="Admit", highlighting fill=c("lightblue", "pink"), 
direction=c("v", "h", "h")) 


Male FemaleMale Male Femate Male Female Mae Female 





13-29 把 Dept 垂直 分 割 ，Gender 垂直 分 割 ，Admit 水 平分 割 


c Se 


13-30 ”把 Dept 垂直 分 割 ，Gender 水 平分 割 ，Admit 水 平分 割 
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这 里 展示 的 例子 是 辛普森 悖 论 中 的 一 个 案例 ， 把 组 合并 的 时 候 ， 每 个 子 组 中 的 变量 的 
关系 会 改变 (或 者 相反 )! UCBerkeley 表 是 加 利 福 尼 亚 大 学 伯克利 分 校 1973 年 的 录 
取 数 据 。 总 体 来 看 ， 男 性 被 录取 的 比率 高 于 女性 ， 由 于 这 个 原因 ， 学 校 被 起 诉 有 性 别 
偏见 。 但 是 当 每 个 系 分 别 检查 的 时 候 ， 发 现 男女 的 比率 是 差不多 的 。 和 总 体 录取 比率 
不 同 的 原因 是 女性 更 倾向 于 申请 录取 率 低 ， 竞 争 性 强 的 系 。 

在 图 13-28 和 图 13-29 中 ， 你 可 以 发 现在 每 个 系 中 ， 男 女 的 录取 比率 差不多 。 你 也 可 
以 发 现 录 取 比 率 高 的 系 (A 和 B) 其 申请 者 的 性 别 比率 非常 不 平衡 : 申请 的 男性 比 女 
性 多 得 多 。 正 如 你 所 看 到 的 ， 以 不 同 的 顺序 和 方向 分 割 数据 会 得 到 数据 不 同 层面 的 展 
示 。 在 图 13-29 中 ， 类 似 图 13-28， 可 以 容易 地 比较 每 个 系 里 和 跨 系 之 间 男 女 的 录取 
率 。 在 图 13-30 中 ， 把 Dept 垂直 分 割 ，Gender 水 平分 割 ，Admit 垂直 分 割 ， 很 难 比 
较 每 个 系 里 男女 的 录取 比率 ， 但 是 容易 比较 跨 系 的 男女 申请 比率 。 


另 见 
查看 ?mosaicplot 可 以 得 到 另外 一 个 画 马赛 克 图 的 函数 。 


PJ. Bickel, E.A. Hammel, and J.W. O’Connell, “Sex Bias in Graduate Admissions: Data 
from Berkeley,” Science 187 (1975): 398-404. 


13.16 ”绘制 饼 图 


问题 
如 何 绘制 一 个 饼 图 ? 


方法 
使 用 pie () 函数 。 在 这 个 例子 中 〔( 见 图 13-31)， 我 们 使 用 来 自 MASS 库 里 面 的 survey 
数据 集 。 

library (MASS) # 为 了 使 用 数据 集 

# 得 到 fold 变量 每 个 水 平 的 频数 


fold <- table(survey$Fold) 
fold 


L on R Neither RonD 
99 18 120 


# 画 饼 图 
Pie (fold) 


我 们 在 pie () 中 输入 table 类 型 的 对 象 。 我 们 也 可 以 提供 一 个 命名 的 向 量 ， 或 者 一 个 
只 有 数值 的 向 量 和 一 个 标签 向 量 ， 如 下 所 示 : 


piel(c(93, ; 120), labels=c("L on R", "Neither", "R on L")) 
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图 13-31 一 个 饼 图 

讨论 

饼 图 的 滥用 是 可 视 化 专家 经 常 指责 的 一 个 话题 。 如 果 你 考虑 使 用 饼 图 ， 不 妨 考 虑 使 用 
条 形 图 (或 者 堆积 条 形 图 )， 它 们 也 许可 以 更 加 有 效 地 传达 信息 。 尽 管 有 缺点 ， 但 是 
饼 图 有 一 个 非常 重要 的 优点 ， 就 是 每 个 人 都 能 够 读 懂 它 。 


13.17 创建 地 图 


问题 
如 何 绘制 一 个 地 图 ? 


方法 
从 maps 包 里 面 获取 地 图 数据 ， 用 geom_polygon () 〈 可 以 用 颜色 填充 ) 或 者 geom_ 
path () 〈 不 能 填充 ) 绘制 。 经 度 和 纬度 默认 是 画 在 直角 坐标 系 中 的 ， 但 是 你 可 以 用 
coord_map () 指定 一 个 投影 。 默 认 的 投影 是 "mercator"( 墨 卡 托 投影 )， 和 直角 坐标 
系 不 一 样 ， 墨 卡 托 投 影 中 纬度 线 之 间 的 距离 会 逐渐 发 生变 化 〈 见 图 13-32 )。 

library (maps) # 为 了 使 用 地 图 数据 


# 美国 地 图 数据 
states map <- map_ data("state") # 必须 载 入 ggplot2 以 使 用 map _data() 


ggplot (states map, aes(x=long, y=lat, group=group)) + 
geom polygon (fill="white", colour="black") 


# geom_path (没有 填充 ) 和 墨 卡 托 投影 
ggplot (states map, aes (x=long, y=lat, group=group)) + 
geom path() + coord map("mercator") 


Q@ 需要 mapproj 包 . 一 一 译 者 注 
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13-32 ”上 图 : 一 个 有 填充 的 地 图 下 图 : 无 填充 ， 使 用 墨 卡 托 投影 的 地 图 

讨论 

map_data() 函数 返回 的 是 一 个 含有 如 下 几 列 的 数据 框 。 

。 long : 纬度 。 

. lat: 经 度 。 

。 group : 这 是 每 个 多 边 形 的 分 组 变量 。 一 个 区 域 或 子 区 域 可 能 有 多 个 多 边 形 ， 例 如 : 
如 果 它 含有 岛屿 。 

。 order : 在 一 组 里 面 每 个 点 的 连接 顺序 。 

region : 基本 是 国家 和 地 区 的 名 字 ， 也 有 其 他 的 对 象 〈 例 如 一 些 湖 )。 

subregion : 一 个 区 域 中 子 区 域 的 名 字 ， 可 能 包含 多 个 组 别 。 例 如 Alaska 子 区 域 包 

含 很 多 岛屿 ， 每 个 都 是 一 组 。 

还 有 很 多 不 同 的 地 图 ， 包 括 world、nz、france、italy、usa (美国 的 轮廓 ) 、state 

美国 的 每 个 州 ) 和 county《〈 美 国 的 每 个 郡 )。 例 如 ， 世 界 地 图 的 数据 如 下 所 示 : 


# 世界 地 图 数据 
world map <- map data ("world") 
world map 
long lat group order region subregion 
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-133.3664 58.42416 1 1 Canada <NA> 
-132.2681 57.16308 1 2 Canada <NA> 
-132.0498 56.98610 1 3 Canada <NA> 
124.7772 11.35419 2284 27634 Philippines Leyte 
124.9697 11.30280 2284 27635 Philippines Leyte 
125.0155 11.13887 2284 27636 Philippines Leyte 


如 果 你 想 画 世界 地 图 中 某 个 没有 单独 地 图 数据 的 区 域 ， 可 以 首先 查找 区 域 的 名 字 ， 如 下 所 示 : 


sort (unique (world map$region)) 


"Afghanistan" "Albania"™ "Algeria" 
"American Samoa" "Andaman Islands" "Andorra™ 
"Angola" "Anguilla" "Antarctica" 
"USA"™ "USSR" "Vanuatu" 
"Venezuela" "Vietnam" "wirgin Islands" 
"islinskiy Zaliv" "Wales"™ "West Bank" 
"Western Sahara" "Yemen™" "Yugoslavian 
"Zairen "Zambia" "Zimbabwe" 


# 你 可 能 发 现 地 图 有 些 过 时 了 ! 


可 以 从 世界 地 图 中 得 到 指定 区 域 的 地 图 数据 〈 见 图 13-33)。 


nmFraneen W 
< 7 


euro <- map data("world", region=c ("UK", "Netherlands", "Belgiu 
# Map region to fill color 

ggplot (euro, aes (x=long, y=lat, group=group, fill=region)) + 

geom polygon (colour="hlack") + 

scale fill brewer(palette="Set2") + 

Scale y continuous (limits=c (40, 60))+ 

scale x continuous (limits=c(-25, 25)) 


m")) 
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13-33 


在 世界 地 图 中 绘制 指定 区 域 的 地 图 
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如 果 一 个 区 域 有 单独 的 地 图 ， 如 nz (新 西 兰 )， 那 么 地 图 数据 就 会 比 从 世界 地 图 中 提 
取出 的 数据 的 分 辩 率 高 ， 如 图 13-34 所 示 : 
# 从 世界 地 图 中 得 到 新 西 兰 地 图 数据 


nzl <- map data("world", region="New Zealand") 
nzl <- subset (nzl，long > 0 & lat > -48) # 划 除 岛 由 
ggplot (nzl, aes (x=long, y=lat, group=group)) + geom path() 


# 从 新 西 兰 (nz) 地 图 中 得 到 新 西 兰 地 图 数据 
nz2 <- map data("nz") 
ggplot (nz2, aes(x=long, y=lat, group=group)) + geom path() 





图 13-34” 左 图 : 从 世界 地 图 中 得 到 的 新 西 兰 地 图 右 图 : 从 新 西 兰 (nz ) 地 图 中 得 到 的 


另 见 

查看 mapdata 包 获 得 更 多 地 图 数据 ， 还 有 高 分 辩 率 的 世界 地 图 worldHires。 
查看 map () 函数 ， 快 速 产生 地 图 。 

查看 ?mapproject 获得 地 图 的 投影 方法 。 


13.18 绘制 等 值 区 域 图 

问题 

如 何 创 建 一 个 地 图 ， 使 得 不 同 区 域 根 据 变量 值 填 充 不 同 的 颜色 ? 
方法 

把 变量 值 和 地 图 数据 合并 在 一 起 ， 然 后 把 一 个 变量 映射 到 fill 上。 
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# 把 USArrests 数据 集 转换 成 正确 的 格式 
crimes <- data.frame (state = tolower (ownames (USArrests)), USArrests) 
crimes 


state Murder Assault UrbanPop Rape 


Alabama alabama 13.2 236 58 21.2 
Alaska alaska 10.0 263 48 44.5 
Arizona arizona 8.1 294 80 31.0 
West Virginia west virginia 5%7 81 39 9.3 
Wisconsin wisconsin 2.6 53 66 10.8 
Wyoming wyoming 6.8 161 60 15.6 


library (maps) # 为 了 使 用 地 图 数据 
states map <- map data("state") 


# 合并 数据 集 


crime map <- merge (states map, crimes, by.x="region", by.y="state") 


# 合并 之 后 ， 顺 序 发 生 了 变化 ， 可 能 会 导致 多 边 形 位 置 不 对 ， 所 以 要 对 数据 排序 


head (crime_ map) 


region long lat group order subregion Murder Assault UrbanPop Rape 
alabama -87.46201 30.38968 1 1 <NA> 13.2 236 58 21.2 
alabama -87.48493 30.37249 1 2 <NA> 13.2 236 58 21.2 
alabama -87.95475 30.24644 1 13 <NA> 13.2 236 58 21.2 
alabama -88.00632 30.24071 于 14 <NA> 13.2 236 58 21.2 
alabama -88.01778 30.25217 1 15 <NA> 13.2 236 58 21,2 
alabama -87.52503 30.37249 1 3 <NA> 13.2 236 58 21.2 
library (plyr) # 为 了 使 用 arrange() 函数 
# 按照 group，order 排序 
crime map <- arrange (crime map, group, order) 
head (crime map) 

region long lat group order subregion Murder Assault UrbanPop Rape 
alabama -87.46201 30.38968 1 1 <NA> 13.2 236 58 21.2 
alabama -87.48493 30.37249 1 2 <NA> 13.2 236 58 21.2 
alabama -87.52503 30.37249 秋 3 <NA> 13.2 236 58 21.2 
alabama -87.53076 30.33239 1 4 <NA> 13.2 236 58 21.2 
alabama -87.57087 30.32665 1 5 <NA> 13.2 236 58 21.2 
alabama -87.58806 30.32665 1 6 <NA> 13.2 236 58 21.2 


当 数 据 的 格式 正确 时 ， 就 可 以 画 出 图 形 ( 见 图 13-35)， 把 其 中 一 列 数值 映射 到 fill 上 : 


ggplot (crime map, aes (x=long, y=lat, group=group, fill=Assault)) + 
geom polygon (colour="black") + 
coord map ("polyconic") 
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13-35 ”将 一 个 变量 映射 到 fil1l 上 的 地 图 
讨论 
前 面 的 例子 用 的 是 默认 的 颜色 标 度 ， 从 深蓝 渐变 到 浅 蓝 。 如 果 你 想 展 示 变 量 值 是 如 何 
从 某 个 中 点 值 向 外 发 散 的 ， 可 以 用 scale _ fill gradient2() ， 如 图 13-36 所 示 : 
ggplot (crimes，aes (map_ id = state, fill=Assault)) + 
geom map(map = states map, colour="black") + 
scale fill gradient2(low="#559999", mid="grey90", high="#BB650B", 
midpoint=median (crimes$Assault)) + 


expand limits(x = states map$long, y = states map$lat) + 
coord map("polyconic") 
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13-36 ”使 用 发 散 的 颜色 标 度 


前 面 的 例子 把 连续 取 值 映射 到 fi11 上 ， 但 是 我 们 也 可 以 用 离散 取 值 。 有 些 时 候 离散 的 取 值 
更 容易 解释 。 例 如 ， 我 们 可 以 把 取 值 按照 分 位 数 进行 分 类 。 展 示 分 位 数 ， 如 图 13-37 所 示 : 
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# 找到 分 位 数 的 边界 
ga <- quantile (crimes$Assault, c(0, 0.2, 1, ; .0)) 
qa 


0% 20% 40% 60% 80% 100% 
45.0 98.8 135.0 188.8 254.2 337.0 


# 加 入 一 个 分 位 数 类 别 的 列 

crimes$Assault q <- cut (crimes$Assault, ga, 
labels=c ("0-20%", "20-40%",; "40-60%"; "60-80%"; "80- "), 
include.lowest=TRUE) 


crimes 

state Murder Assault UrbanPop Rape Assault q 
Alabama alabama 13.2 236 58 21.2 60-80% 
Alaska alaska 10.0 263 48 44.5 80-100% 
Wisconsin wisconsin 2.6 53 66 10.8 0-20% 
Wyoming wyoming 6.8 161 60 15.6 40-60% 
# 产生 一 个 有 5 个 离散 取 值 的 调 色 板 
pal <- colorRampPalette(c("#559999", "grey80", "#BB650B")) (5) 


pal 
"#559999™ "#90B2B2"™ "™#CCCCCC™ ™#C3986B" ™#BB650B" 


ggplot (crimes, aes (map id = state, fill=Assault q)) + 
geom map (map = states map, colour="black") + 
scale fill manual (values=pal) + 
expand limits(x = states map$long, y = states map$lat) + 
coord map ("polyconic") + 
labs (fill="Assault Rate\nPsrcentile") 
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13-37 ”离散 数值 的 等 值 区 域 图 


另外 一 个 画 等 值 区 域 图 (Choropleth Map) 的 方法 是 使 用 geom_map () ， 它 不 需要 把 变量 
取 值 和 地 图 数据 合并 起 来 。 因 此 ， 这 个 方法 可 以 比 之 前 描述 的 方法 更 快 地 生成 地 图 。 


在 这 个 方法 中 ， 地 图 数据 框 中 必须 有 lat (经 度 )、long (纬度 ) 和 region (区 域 ) 列 。 
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在 数值 数据 框 中 ， 必 须 有 一 列 能 够 和 地 图 数据 框 的 region〔 区 域 》 列 匹配 上 ， 并 且 这 
一 列 要 映射 到 map_id 图 形 属性 上 。 例 如 ， 下 面 的 代码 和 前 面 的 例子 效果 相同 : 


# crimes 中 :state! 列 要 和 states map 中 的 'region' 列 匹配 

ggplot (crimes，aes (map id = state, fill=Assault)) + 
geom map (map = states map) + 
expand limits(x = states map$long, y = states map$lat) + 
coord map ("polyconic") 


注意 ， 我 们 还 需要 用 expand_1limits()， 这 是 因为 和 大 多 数 儿 何 对 象 不 一 样 ，geom_ 
map () 不 能 自动 设 定 x 和 y 的 界限 ， 使 用 expand limits() 可 以 使 得 经 纬度 包含 x 和 
y 值 (另外 一 种 能 够 得 到 相同 结果 的 方法 是 用 ylim() 和 xlim() )。 

另 见 

将 数据 炙 加 在 一 个 地 图 上 的 方法 ， 参 见 13.12 节 。 

更 多 使 用 连续 颜色 的 方法 ， 参 见 12.6 节 。 


13.19 创建 空白 背景 的 地 图 


问题 
何如 把 地 图 中 的 背景 元 素 去 掉 ? 
方法 
首先 ， 保 存 下 面 的 主题 : 
# 创建 一 个 去 掉 了 很 多 背景 元 素 的 主题 


theme clean <- function(base size = 12) 1 
require (grid) # unit() 函数 需要 
theme grey(base size) %+replaces 


theme ( 

axis.title = element blank(), 

axis,.text = element blank()， 
panel.background = element blank(), 

panel .grid = element blank(), 
axis.ticks.length = unit (0, "cm"), 
axis,.ticks.margin = unit(0, "cm"), 

panel.margin = unit(0, "lines"), 
plot.margin = unit(c(0, 0, 0, 0), "lines"), 


complete = TRUE 
) 
} 


然后 把 它 加 在 地 图 上 ( 见 图 13-38)。 在 这 个 例子 中 ， 我 们 把 它 加 在 了 13.18 节 中 创建 
的 一 个 等 值 区 域 图 上 。 
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ggplot (crimes, aes (map id = state, fill=Assault 9) ) + 
geom map (map = states map, colour="black") + 
scale fill manual (values=pal) + 
expand limits(x = states map$long, y = states map$lat) + 
coord map ("polyconic") + 
labs (fill="Assault Rate\nPercentile") + 
theme clean () 











Assault Rate 
Percentile 








图 13-38 ”空白 背景 的 地 图 


讨论 


在 R 2.15.2 以 及 更 早 的 版 本 中 存在 一 个 缺陷， 可 能 会 出 现下 面 这 样 的 错误 ; 


Error in grid.Call.graphics(L setviewport, pvp, TRUE) : 
Non-finite location and/or size for viewport 


出 现 这 样 错误 的 原因 是 一 些 维度 的 和 的 长 度 是 0，grid 图 形 引擎 不 能 很 好 地 处 
理 这 个 问题 。 这 个 缺陷 应 该 在 R 3.0 中 被 修复 了 。 如 果 你 使 用 的 及 出 现 了 这 
个 问题 ， 在 改变 主题 的 时 候 请 使 用 axis.ticks.margin = unit(0.01， "cm'")， 


而 不 是 axis.ticks.margin = unit (0, "cm")。 


在 有 些 地 图 中 ， 包 含 前 后 相关 的 信息 是 很 重要 的 ， 例 如 经 度 和 纬度 。 在 男 外 一 些 地 图 
中 ， 这 些 信息 却 不 再 重要 了 一 一 它们 反而 会 分 散 所 传达 的 信息 。 在 图 13-38 中 ， 观 察 
者 可 能 不 关心 各 个 州 的 经 度 和 纬度 。 他 们 可 以 通过 形状 和 相对 位 置 判断 这 些 州 ， 并 且 
即使 他 们 无 法 判断 ， 经 度 和 纬度 也 没有 什么 帮助 。 


13.20 
问题 


基于 空间 数据 格式 ( shapefile ) 创建 地 图 


如 何 基于 Esri shapefile 创建 地 图 ? 
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方法 
用 maptools 包 中 的 readshapepoly() 载 入 空间 数据 文件 ， 用 fortify() 把 数据 转化 成 
数据 框 的 格式 ， 然 后 画图 ( 见 图 13-39 ): 

library (maptools) 

# ” 载 入 空间 数据 并 转化 成 数据 框 


uk_shp <- readShapePoly ("GBR adm/GBR adm2.shp") 
uk map <- fortify(uk shp) 


ggplot (uk map, aes(x = long, y = lat, group=group)) + geom path() 





13-39 从 shapefile 创建 的 地 图 


讨论 
Esri shapefile 是 一 种 很 常用 的 地 图 数据 ，readShapePoly() 函数 读 入 空间 数据 文件 ， 
返回 一 个 SpatialPolygonsDataFrame 对 象 : 


uk shp <- readShapePoly ("GBR adm/GBR adm2.shp") 


# 查看 该 对 象 的 格式 
str (uk_shp) 


Formal class 'SpatialPolygonsDataFrame' [package "sp"] with 5 slots 


,vvQ data ;data.frame': 192 obs. of 11 variables: 
“0 so IDO : int [1:192] 239 239 239 239 239 239 239 239 239 239 ... 
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s «68 TSO 
.。..$ NAME 0 
-D1 


.-@ proj4string:Formal class 'CRS' 


: Factor W/ 1 level "GBR": 1 111111111... 

: Factor w/ 1 level "United Kingdom": 1 1 11111111... 
:nt [1a192 2 人 

.»» [lots more stuff] 


,..，.。..Q projargs: chr NA 


把 它 转 化 为 常规 的 数据 框 : 


uk map <- fortify(uk shp) 


uk_map 


long 
-6.210473 54.43324 
-6.166388 54.44416 
-6.165556 54.43417 


-3.053567 53.10680 
-2.991725 53.13901 
-2.956809 53.14467 


1 FALSE 
2 FALSE 
3 FALSE 


57 FALSE 
58 FALSE 
59 FALSE 


[package "sp"] with 1 slots 


lat order hole piece group id 


1 0.1 0 
1 ‘01 0 
1 0 0 
1 191.1 191 


191.1 191 
1 191.1 191 


[nn 


实际 上 ， 也 可 以 直接 在 ggplot () 中 输入 SpatialPolygonsDataFrame 对 象 ， 这 里 自动 


使 用 了 fortify() : 


# 直接 在 ggplot () 中 输入 SpatialPolygonsDataFrame 
ggplot (uk_shp, aes (x=long, y=lat, group=group)) + geom path() 


尽管 这 个 代码 更 加 简单 ， 但 是 你 可 能 还 是 想 自己 用 fortify () 转化 数据 。 这 会 使 你 更 
容易 查看 输入 ggplot () 中 的 数据 的 结构 ， 或 者 把 该 数据 框 和 其 他 数据 集合 并 。 


男 见 


这 里 使 用 的 空间 数据 没有 包含 在 gcookbook 包 中 。 该 数据 集 和 其 他 空间 数据 集 都 可 以 在 


这 里 下 载 得 到 : http://www.gadm.org/。 
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输出 图 形 用 以 展示 





- 般 而 言 ， 数 据 可 视 化 为 两 个 目标 服务 : 发现 和 沟通 。 在 发 现 阶段 ， 你 会 创建 探索 性 
的 图 形 ， 而 在 这 样 做 的 时 候 ， 能 够 快速 尝试 不 同 的 可 视 化 方式 是 比较 重要 的 。 在 沟通 
阶段 ， 你 会 把 你 的 图 形 呈 现 给 他 人 。 当 你 做 这 件 事 的 时 候 ， 往 往 需要 微调 图 形 的 外 观 
es de 并 且 经 常 需要 将 这 些 图 形 放 置 到 你 的 计算 机 屏幕 以 外 的 地 

。 本 章 就 是 关于 后 一 部 分 的 : 保存 你 的 图 形 以 使 它们 能 够 被 呈现 在 文档 中 。 


14.1 输出 为 PDF 矢量 文件 

问题 

如 何 为 你 的 图 形 创建 PDF 格式 的 输出 ? 

方法 

有 两 种 方法 输出 PDF 文件 。 一 种 方法 是 ， 使 用 pdf () 打开 PDF 图 形 设备 ， 绘 制图 形 ， 


然后 使 用 dev.off() 关闭 图 形 设备 。 这 种 方法 适用 于 R 中 的 大 多 数 图 形 ， 包 括 基础 图 
形 和 基于 网 格 的 图 形 ， 如 那些 由 ggplot2 和 lattice 创建 的 图 形 : 


# width (宽度 ) 和 height (高 度 ) 的 单位 为 英寸 
paf ("myplot.r ", width=4, height=4) 


# 绘制 图 形 
plot (mtcars$wt, mtcars$mpg) 
Print (ggplot (mtcars, aes (x=wt, y=mpg)) + geom point ()) 


dev.off () 


如 果 你 绘制 的 图 形 多 于 一 幅 ， 则 每 一 幅 将 在 PDF 输出 中 列 于 独立 的 一 页 。 注 意 ， 我 们 针 
对 ggplot 对 象 调用 了 print () ， 以 确保 这 段 代 码 即 使 是 在 一 We 输出 图 形 。 
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width( 宽 度 ) 和 height (高 度 ) 的 单位 为 英寸 所以， 要 以 厘米 为 单位 指定 长 宽 ， 
必须 手动 执行 转换 : 


# 8x8 cm 
paf("myplot.pdaf"，width=8/2.54，height=8/2 .54) 


如 果 你 使 用 某 个 脚本 来 创建 图 形 ， 而 在 创建 图 形 的 过 程 中 抛 出 了 一 个 错误 ， 则 及 可 能 
无 法 执行 到 dev.off() 这 一 步调 用 ， 并 可 能 停留 在 PDF 设备 仍然 开启 的 状态 。 当 这 种 
情况 发 生 时 ， 直 到 你 去 手动 调用 dev.off() 之 前 ，PDF 文件 将 无 法 正常 打开 : 


如 果 你 使 用 ggplot2 创建 图 形 ， 那 么 使 用 ggsave () 会 简单 一 些 。 此 函数 可 以 简单 地 保 
存 使 用 ggplot () 创建 的 最 后 一 幅 图 形 : 


ggplot (mtcars, aes (x=wt, y=mpg)) + geom point () 


# 默认 单位 为 英寸 ， 不 过 也 可 指定 单位 
'mypl 


ggsave (' t.pdf", width=8, height=B, units="cm") 


使 用 ggsave () 时 ， 就 无 需 打 印 ggplot 对 象 了 ， 并 且 如 果 在 创建 或 保存 图 形 时 出 现 了 
错误 ， 也 无 需 手动 关闭 图 形 设备 。 不 过 ，ggsave () 不 能 用 于 创建 多 页 的 图 形 。 

讨论 

当 你 的 目的 是 输出 到 供 打印 的 文档 时 ，PDF 文件 通常 是 最 佳 选择 。 这 种 格式 可 以 与 LaTeX 


轻松 配合 ， 而 且 可 以 用 于 苹果 Keynote 软件 创建 的 演示 幻灯 片 中 ， 但 微软 的 软件 可 能 难以 导 
入 这 种 格式 的 文件 (参见 14.3 节 以 了 解 关于 如 何 创建 可 被 导入 微软 软件 的 矢量 图 形 的 细节 )。 


PDF 文件 一 般 也 比 位 图 文件 ， 如 便携 式 网 络 图 形 (PNG) 文件 更 小 ， 因 为 PDF 文件 包含 
的 是 一 系列 的 指令 ， 如 “从 这 里 到 那里 画 一 条 直线 ”， 而 不 是 关于 每 个 像素 的 颜色 信息 。 
不 过 ， 也 存在 位 图 文件 更 小 的 情况 。 例 如 ， 如 果 你 有 一 幅 存在 严重 遮盖 的 散 点 图 ， 则 PDF 
文件 可 能 会 比 PNG 文件 大 得 多 一 虽然 大 多 数 点 都 无 法 彼此 分 清 ，PDF 文件 却 将 仍然 包含 
绘制 每 一 个 点 的 指令 ， 反 之 ， 位 图 文件 将 不 会 包含 这 些 见 余 的 信息 。 参 见 5.5 节 中 的 示例 。 


另 见 
如 果 你 希望 手动 编辑 PDF 或 SVG 文件 ， 参 见 14.4 节 。 


14.2 输出 为 SVG 矢量 文件 

问题 

如 何 为 你 的 图 形 创建 可 缩放 矢量 图 形 (SVG) 格式 的 输出 ? 
方法 

SVG 文件 在 创建 和 使 用 的 方法 上 与 PDF 文件 基本 相同 : 





输出 图 形 用 以 展示 267 


svg("myplot.svg", width=4, height=4) 


plot(...) 

dev .off () 

# 使 用 ggsave () 

ggsave ("myplot.svg", width=8, height=8, units="cm" 
» » 
讨论 


当 涉 及 导入 图 像 时 ， 某 些 程序 可 能 在 处 理 SVG 方面 比 PDF 要 好 些 ， 反 之 亦 然 。 举 例 
来 说 ，Web 浏览 器 一 般 有 着 更 好 的 SVG 支持 ， 而 文档 创建 程序 ， 如 LaTeX， 则 一 般 
有 着 更 好 的 PDF 支持 。 


14.3 输出 为 WMF 矢量 文件 


问题 
如 何 为 你 的 图 形 创建 Windows 图 元 文件 《WMEF) 格式 的 输出 ? 


方法 
WMEF 文件 在 创建 和 使 用 的 方法 上 与 PDF 文件 基本 相同 
能 在 Windows 上 创建 了 : 


win.metafile("myplot.wmf", width=4, height=4) 
pliot(,,.) 
dev.off() 


但 这 种 格式 的 图 形 文件 只 





# 使 用 ggsave() 
ggsave ("mypliot .wmf", width=8, height=8, units="cm") 


讨论 
Windows 下 的 程序 ， 如 Microsoft Word 和 PowerPoint 对 于 PDF 文件 的 导入 支持 较 差 ， 


但 是 这 些 程序 都 是 原生 支持 WMEF 格式 的 。WMEF 格式 的 一 个 缺点 是 不 支持 透明 (alpha 
通道 )。 


14.4 编辑 矢量 格式 的 输出 文件 


问题 
如 何 打开 矢量 格式 的 输出 文件 以 用 于 最 终 的 编辑 ? 


G， 使 用 CRAN 上 devEMF 包 提 供 的 emf () 设备 ， 读 者 也 可 在 Linux 或 OSX 下 创建 Windows 图 元 格式 的 
文件 。 关 于 这 种 格式 的 更 多 评论 ， 可 以 参见 http://cos.name/cn/topic/109475。 一 一 译 者 注 
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方法 
有 时 为 了 展示 图 形 ， 我 们 需要 对 一 幅 图 的 外 观 进行 最 终 的 微调 。 你 可 以 使 用 出 色 的 自 
由 软件 Inkscape 或 商业 软件 Adobe Illustrator 打开 PDF 和 SVG 文件 。 


讨论 


当 你 使 用 Inkscape 打开 PDF 文件 时 ， 字 体 支持 可 能 是 一 个 问题 。 一 般 来 说 ， 使 用 PDF 设 
备 绘制 的 点 对 象 将 被 编码 为 Zapf Dingbats 字体 中 的 符号 。 这 样 在 你 希望 使 用 像 Illustrator 
或 Inkscape 一 类 的 编辑 器 打开 这 些 文件 时 可 能 会 有 问题 ， 举 例 来 说 ， 点 可 能 会 显示 为 
字母 qg， 如 图 14-1 所 示 ， 因 为 这 正 是 实心 圆 形 项 目 符号 在 Zapf Dingbats 中 对 应 的 字母 。 











图 14-1 在 Inkscape 中 打开 后 对 点 符号 的 糟糕 转换 一 一 同时 注意 到 文字 的 间距 也 略 有 问题 
要 避免 这 个 问题 ， 设 置 参数 useDingbats=FALSE 即 可 。 这 将 使 得 圆圈 被 绘制 为 圆圈 而 
不 是 字体 中 的 字符 : 
pdf ("myplot .pdf", width=4, height=4, useDingbats=FALSE) 
# 或 者 
ggsave ("myplot .pdf", width=4, height=4, useDingbats=FALSE) 
cA 即使 进行 如 上 操作 ，Inkscape 在 字体 方面 可 能 依然 存在 一 些 问题 。 你 可 能 
El 已 经 注意 到 了 图 14-1 中 的 字体 看 起 来 不 太 对 。 这 是 因为 Inkscape( 0.48 wk 
3 无 法 找到 Helvetica 字体 ， 并 使 用 Bitstream Vera Sans 字体 替代 了 前 者 。 
种 临时 解决 方案 是 复制 Helvetica 字体 文件 到 你 的 字体 库 中 。 举 例 来 说 ， 
Mac OS X 上 ， 在 终端 窗口 中 执行 cp /System/Library/Fonts/Helvetica. 
dfont ~/Library/Fonts/ 即 可 ， 当 提示 说 有 字体 冲突 时 ， 上 点击“ 忽略 冲 
突 ”。 在 完成 以 后 ，Inkscape 就 应 该 可 以 正常 地 显示 Helvetica 字体 了 。 
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14.5 ”输出 为 点 阵 ( PNG/TIFF ) 文件 


问题 
如 何 创建 点 阵 格式 的 图 形 ， 并 写 入 到 PNG 文件 中 ? 


方法 
有 两 种 方法 可 以 输出 PNG 点 阵 文件 。 一 种 方法 是 使 用 png() 打开 PNG 图 形 设 备 ， 绘 
制图 形 ， 然 后 使 用 dev.off() 关闭 设备 。 这 种 方法 对 于 R 中 的 多 数 图 形 都 有 效 ， 包 括 
基础 图 形 和 基于 网 格 的 图 形 ， 如 那些 由 ggplot2 和 lattice 创建 的 图 形 : 

# width (宽度 ) 和 height (高 度 ) 的 单位 为 像素 

png("myplot ,png"，width=400，height=400) 


# 绘制 图 形 
plot (mtcars$wt, mtcars$mpg) 
dev.off () 
要 输出 多 幅 图 形 ， 可 在 文件 名 中 加 入 sa。 对 于 后 续 图 形 ， 这 个 位 置 将 被 1、2、3 等 替代 : 
# width 和 height (高 度 ) 的 单位 为 像素 
png("r -sd.png"，width=400，height=400) 


plot (mtcars$wt, mtcars$mpg) 

print (ggplot (mtcars, aes (x=wt, y=mpg)) + geom point()) 

dev.off () 
注意 ， 我 们 针对 ggplot 对 象 调用 了 print () ， 以 确保 这 段 代 码 即 使 是 在 一 段 脚本 中 时 
也 能 够 输出 图 形 。 
width〔 宽 度 ) 和 height (高 度 ) 的 单位 为 像素 ， 而 默认 的 输出 分 辨 率 为 每 英寸 72 像 
素 (72 ppi)。 这 一 分 辨 率 适合 在 屏幕 上 显示 ， 但 会 在 打印 时 显得 模糊 且 有 锯齿 。 


对 于 高 质量 的 打印 输出 ， 分 辩 率 应 至 少 为 300 ppi。 图 14-2 显示 了 相同 图 形 的 一 部 分 
在 不 同 分 辨 率 下 的 效果 。 在 本 例 中 ， 我 们 将 使 用 300 ppi 的 设置 ， 并 创建 一 个 4 英 
寸 XxX4 英寸 的 PNG 文件 : 


1 


让 计算 一 幅 4 英寸 x4 英寸 300 ppi 图 像 的 高 度 和 宽度 (以 像素 为 单位 ) 


png("myplot.png", width=4*ppi, height=4*ppi, res=ppi) 
plot (mtcars$wt, mtcars$mpg) 
dev.off () 


如 果 你 使 用 某 个 脚本 来 创建 图 形 ， 而 在 创建 图 形 的 过 程 中 抛 出 了 一 个 错误 ， 则 R 可 能 无 
法 执行 到 dev .off() 这 一 步调 用 ， 并 可 能 停留 在 PNG 设备 仍然 开启 的 状态 。 当 这 种 情况 
发 生 时 ， 直 到 你 去 手动 调用 dev.off () 之 前 ，PNG 文件 将 无 法 用 查看 程序 正常 地 打开 : 
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如 果 你 使 用 ggplot2 创建 图 形 ， 那 么 使 用 ggsave () 会 简单 一 些 。 此 函数 可 以 简单 地 保 
存 使 用 ggplot () 创建 的 最 后 一 幅 图 形 。 et ne 
的 宽度 和 高 度 ， 并 指定 合用 了 ppi 数值 : 

ggplot (mtcars, aes (x=wt, y=mpg)) + geom point () 


# 默认 的 宽 高 年 位 是 类 二 ， 不 过 也 可 以 指定 其 他 单位 
ggsave ("myplot ,png", width=8, height=8, unit="cm", dpi=300) 




















14-2 ”从 左 至 右 : 72、150 和 300 ppi 的 PNG 输出 (实际 大 小 ) 


使 用 ggsave () 时 ， 无需 打印 ggplot 对 象 ， 并 且 如 果 在 创建 或 保存 图 形 时 出 现 了 错误 ， 
也 无 需 手动 关闭 图 形 设 备 。 


2 虽然 这 个 参数 名 为 dpi， 但 它 实际 上 控制 的 却 是 每 英寸 的 像素 数 ( pixels 
re ~ per inch, ppi), 而 非 每 英寸 的 点 数 (dots perinch，dpi)。 在 印刷 中 泻 染 一 
一 虎 ， 个 灰色 像素 时 ， 我 们 是 使 用 许多 黑色 墨水 的 小 点 来 输出 它 的 一 因此 印刷 
输出 拥有 的 每 英寸 点 数 要 高 于 每 英寸 像素 数 。 
讨论 


R 也 支持 其 他 的 点 阵 图 形 格式 ， 如 BMP、TIFF 和 JPEG， 但 其 实 真 的 没有 太 多 理由 去 
使 用 这 些 格 式 而 不 去 使 用 PNG 格式 。 


点 阵 图 形 具体 外 观 视 平 台 而 异 。 与 R 中 的 PDF 输出 设备 跨 平台 泻 染 一 致 的 特点 不 同 
的 是 ， 点 阵 输 出 设备 可 能 在 Windows、Linux 和 Mac OS 又 上 对 相同 图 形 演 染 出 不 同 的 
效果 。 甚 至 在 相同 类 型 的 操作 系统 中 也 可 能 会 有 差异 。 

不 同 的 平台 对 字体 的 泻 染 不 同 ， 某 些 平 台 会 对 线条 进行 抗 锯齿 (平滑 ) 处 理 ， 而 其 他 平 
台 可 能 不 会 。 某 些 平台 支持 alpha 通道 〈 透 明度 ) ， 而 其 他 平台 可 能 并 不 支持 。 如 果 你 的 平 
台 缺 乏 对 像 抗 锯齿 和 alpha 通道 之 类 特性 的 支持 ， 可 以 使 用 Cairo 包 中 的 cairoPNG() 设备 : 


install.packages ("Cairo") # 只 需 安装 一 次 
CairoPNG ("myplot.png") 

LE 

dev.off () 


尽管 cairoPNG() 并 不 能 保证 跨 平台 精确 一 致 的 泻 染 (字体 可 能 不 会 完全 相同 )， 它 还 
是 支持 如 抗 锯齿 和 alpha 通道 这 样 的 特性 。 
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修改 分 辩 率 会 影响 图 形 对 象 ， 如 文本 、 线 条 和 点 这 类 图 形 对 象 的 大 小 (以 像素 为 单 
位 )。 举 例 来 说 ， 一 幅 6 英寸 X6 英寸 大 小 ，75 ppi 的 图 像 在 以 像素 衡量 的 宽 高 与 一 幅 
3 英寸 X3 英寸 ，150 ppi 的 图 像 是 相同 的 ， 但 外 观 是 不 同 的 ， 如 图 14-3 所 示 。 这 些 图 像 
均 为 450 像素 X450 像素 。 和 这 里 一 样 ， 当 在 计算 机 屏幕 上 显示 时 ， 它 们 大 小 几乎 相同 。 
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14-3 左 图 : 6 英寸 x6 英 寸 75 ppi 的 图 像 右 图 : 3 英寸 x3 英 寸 150 ppi 的 图 像 


14.6 在 PDF 文件 中 使 用 字体 


问题 
如 何在 PDF 文件 中 使 用 由 R 提供 的 基本 字体 以 外 的 字体 ? 


方法 ” 

extrafont 包 可 用 于 创建 包含 其 他 字体 的 PDF 文件 。 

这 个 过 程 涉及 许多 步骤 ， 首 先是 一 些 一 次 性 的 软件 安装 和 配置 。 下 载 并 安装 Ghostscript， 
然后 在 R 中 执行 以 下 命令 : 


install.packages ("extrafont") 
library (extrafont) 


# 查找 并 保存 系统 中 已 安装 字体 的 信息 
font import() 
# 列 出 字体 
fonts () 
在 一 次 性 的 安装 和 设置 完成 后 ， 需 要 你 在 每 个 新 的 R 会 话 中 执行 的 是 : 
@ 目录 更 好 的 解决 方法 是 使 用 邱 怡 轩 开 发 的 showtext 包 ， 该 包 可 以 非常 简单 、 灵 活 地 在 各 种 图 形 设备 


中 添加 字体 ， 有 具体 参见 COS 主 站 文章 《showtext : 字体 ， 好 玩 的 字体 和 好 玩 的 图 》， 地 址 : http://cos. 
name/2014/01/showtext-interesting-fonts-and-graphs/。 一 一 译 者 注 
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library (extrafont) 
# 在 R 中 注册 字体 
loadfonts () 


E 在 Windows 上 ， 你 可 能 需要 指定 Ghostscript 的 安装 位 置 
(根据 你 的 Ghostscript 安装 位 置 调整 对 应 的 路 径 ) 
~ setenv(R GSCMD = "C:/Program Files/gs/gs9.05/bin/gswin32c.exe") 
最 后 ， 你 可 以 创建 PDF 文件 并 向 其 中 嵌入 字体 ， 如 图 14-4 所 示 : 


library (ggplot2) 
ggplot (mtcars, SSI =wt, y=mpg)) + geom point () + 








ggtitle("T text goes here") + 
thene (text = -人 RE .text (size = 16, family="Impact")) 
ggsave ("myplot .pdf", width=4, height=4) 
embed fonts ("myplot.pdf") 
|] 
ss Titie text goes here 
. 过 | 
-一 一直 
. 
25- . 
BB . . ， 
ES 站 
20- -+ 3 | 
[人 
西 i - 
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刘 - ee 
2 3 4 5 
wt 





| 
14-4 庶 入 了 Impact 字体 的 PDF 输出 


讨论 
在 R 中 使 用 字体 可 能 会 很 困难 。 某 些 输出 设备 ， 如 Mac OS X 中 的 屏幕 显示 设备 quartz 


可 以 显示 计算 机 上 已 安装 的 任意 字体 。 其 他 输出 设备 ， 如 Windows 上 的 默认 png 设备 ， 
却 无 法 显示 系统 字体 。 


此 外 ，PDF 文件 在 涉及 字体 的 方面 也 有 自己 的 怪异 之 处 。PDF 规范 中 指定 了 14 种 
“核心 ”字体 。 这 些 字体 是 每 个 PDF 演 染 器 都 拥有 的 ， 其 中 包括 标准 字体 ， 如 Times、 

Helvetica 和 Courier。 如 果 你 创建 的 PDF 中 使 用 了 这 些 字体 ， 则 任何 PDF 演 染 器 都 应 
该 可 以 正确 地 显示 它 。 


但 是 如 果 你 希望 使 用 除了 这 些 核 心 字体 以 外 的 某 种 字体 ， 则 无 法 保证 某 个 设备 上 的 
PDF 渔 染 器 拥有 这 种 字体 ， 所 以 你 无 法 确认 这 种 字体 是 否 能 够 在 其 他 计算 机 或 打印 机 
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上 正确 地 显示 或 打印 。 为 了 解决 这 个 问题 ， 非 核心 字体 可 以 被 诺 入 到 PDF 中 ; 换 句 话 
说 ，PDF 文件 本 身 可 以 包含 一 份 你 希望 使 用 字体 的 副本 。 

如 果 你 在 一 个 PDF 文档 中 放置 了 多 幅 PDF 图 形 ， 则 可 能 会 希望 在 最 终 的 文档 中 嵌入 
相应 的 字体 而 不 是 在 每 幅 图 形 中 都 戏 入 一 次 。 这 样 可 以 使 得 最 终 的 文档 小 一 些 ， 因 为 
字体 只 被 对 入 了 一 次 ， 而 不 是 每 幅 图 形 都 能 入 一 次 。 

使 用 了 及 来 拒 入 字体 可 能 是 一 个 环 手 的 过 程 ， 不 过 extrafont 包 已 经 替 你 处 理 了 许多 讨 
厌 的 细节 。 


在 写作 本 段 之 时 ，extrafont 仅 可 导入 TrueType (.1tf) 字体 ， 但 它 可 能 会 


人 、 在 将 来 支持 其 他 常见 的 字体 格式 ， 如 OpenType (.oW) 字体 
和 


男 见 
关于 控制 文本 外 观 的 更 多 内 容 ， 参 见 9.2 节 。 


14.7 在 Windows 的 点 阵 或 屏幕 输出 中 使 用 字体 


问题 

使 用 Windows 时 ， 如 何在 点 阵 或 屏幕 输出 中 使 用 除了 R 中 提供 的 基本 字体 以 外 的 
字体 ? 

方法 

extrafont 包 可 以 用 于 创建 点 阵 或 屏幕 输出 。 过 程 与 使 用 extrafont 处 理 PDF 文件 
类 似 (参见 14.6 节 )。 除 了 不 需要 Ghostscript 以 外 ， 一 次 性 的 安装 过 程 几乎 是 相 
同 的 : 

install .packages ("extrafont") 


library (extrafont) 


# 查找 并 保存 系统 中 已 安装 字体 的 信息 
font_import () 


# 列 出 字体 
fonts () 


在 一 次 性 的 安装 过 程 结束 之 后 ， 需 要 你 在 每 个 新 的 R 会 话 中 执行 的 是 : 
library (extrafont) 
# 注册 Windows 中 的 字体 
loadfonts ("win") 
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最 后 ， 你 可 以 创建 输出 文件 或 在 屏幕 上 显示 图 形 ， 如 图 14-5 所 示 : 


library (ggplot2) 
ggplot (mtcars, aes (x=wt, y=mpg)) + geom point() + 
ggtitle ("Title text goes here") + 
theme (text = element text (size = 16, family="Georgia", face="italic")) 


ggsave ("myplot.png", width=4, height=4, dpi=300) 


:过 text goes “四 








14-5 ” 含 冬 体 Georgia 字体 的 PNG 输出 
讨论 
点 阵 图 形 与 PDF 图 形 在 字体 的 处 理 方 式 上 是 完全 不 同 的 。 


在 Windows 上 ， 对 于 点 阵 输出 ， 必 须 手 工 在 R 中 注册 每 一 个 字体 (extrafont 让 这 件 
事变 得 容易 了 许多 )。 而 在 Mac OS X 和 Linux 上 ， 对 于 点 阵 输出 ， 字 体 应 该 是 直接 可 
用 的 ， 并 不 需要 手工 注册 它们 。 
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起 


绘制 统计 图 形 时 ， 有 半数 的 时 间 会 花 在 调用 绘图 命令 之 前 。 在 你 把 数据 传送 给 画图 函 
数 之 前 ， 数 据 首 先 需 要 被 读 入 R 中 并 转化 为 正确 的 结构 。R 中 提供 的 数据 集 可 以 直接 
使 用 ， 但 到 了 真实 世界 中 ， 就 不 是 这 种 情况 了 : 在 将 数据 转化 为 图 形 之 前 ， 你 需要 对 
数据 进行 清理 然后 重新 组 织 数据 的 结构 。 

R 中 的 数据 集 常 以 数据 框 的 形式 存在 。 它 们 都 是 典型 的 二 维 数据 结构 ， 每 行 代表 一 个 
具体 对 象 〈case) ， 每 列 代表 一 个 描述 对 象 的 变量 。 数 据 框 本 质 上 是 由 向 量 和 因子 组 成 
的 列表 ， 其 中 每 个 向 量 或 者 因子 代表 了 数据 的 一 列 。 


下 面 是 heightweight 数据 集 : 
library (gcookbook) # 为 了 使 用 数据 集 
heightweight 


sex ageYear ageMonth heightIn weightLb 


£ 11.92 143 56.3 85.0 
£f 12.92 155 62.3 105.0 
m 13.92 167 62.0 107.5 
m 12.58 151 59.3 87.0 


它 一 共 五 列 ， 每 行 代表 了 一 个 具体 对 象 (case): 某 个 人 的 一 些 信 息 。 我 们 可 以 通过 
str() 函数 清楚 地 了 解 它 的 结构 。 


str (heightweight) 


'data.frame': 236 obs. of 5 variables: 

$ sex : Factor w/ 2 levels "f","m": 1111111111.. 
$ ageYear : num 11.9 12.9 12.8 13.4 15.9 ... 

$ ageMonth: int 143 155 153 161 191 171 185 142 160 140 ... 

$ heightIn: num 56.3 62.3 63.3 59 62.5 62.5 59 56.5 62 53.8 ... 
$ weightLb: num 85 105 108 92 112 ... 
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数据 的 第 一 列 sex， 是 一 个 两 水 平 ("f" 和 "m") 的 因子 。 其 余 四 列 都 是 数值 型 向 量 ( 其 
中 的 ageMonth 是 整 型 向 量 ， 但 在 此 处 ， 它 与 其 他 数值 向 量 并 无 明显 区 别 )。 


因子 和 字符 型 向 量 在 ggplot2 中 的 处 理 方式 相 类 似 一 一 主要 区 别 在 于 ， 展 示 字 符 型 向 
量 代表 的 项 目 时 ， 它 们 以 字母 表 的 顺序 排列 ， 而 因子 型 的 项 目 是 按 因 子 水 平 的 顺序 排 
列 ， 这 个 顺序 是 可 以 由 用 户 控 制 的 。 


15.1 创建 数据 框 


问题 

如 何 将 若干 向 量 组 织 成 数据 框 ? 

方法 

你 可 以 把 向 量 放 在 data.frame () 里 面 : 
# 从 两 个 简单 的 向 量 开始 


g <- e("A", "Br", ) 
名 < 


dat <- data.frame (g, xX) 


dat 
gx 
Al 
B2 
oe 
讨论 


数据 框 本 质 上 是 由 一 堆 向 量 和 因子 构成 的 列表 ， 其 中 每 个 向 量 或 者 因子 代表 了 一 列 。 
如 果 你 的 向 量 在 一 个 列表 中 ， 你 可 以 用 as .data.frame () 函数 直接 将 它们 转化 成 数据 框 : 


lst <- list(group = g value = x) # 由 向 量 组 成 的 列表 


dat <- as.data.frame(1st) 


15.2 ”从 数据 框 中 提取 信息 


问题 

如 何 从 一 个 对 象 或 者 数据 框 中 提取 主要 信息 ? 
方法 

使 用 str () 函数 : 


str (ToothGrowth) 
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'data.frame': 60 obs. of 3 variables: 
$ len : nom 4.2 11.5 7.3 5.8 6.4 10 11.2 11.2 5.27 ... 
$ supp: Factor W/ 2 levels "OJ","VC": 2222222222.. 
$ dose: num 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 ... 
以 上 代码 告诉 你 ToothGrowth 由 len、supp 和 dose 三 列 组 成 ，len 和 dose 包含 的 是 


数值 变量 ， 而 supp 是 一 个 有 两 个 水 平 的 因子 。 

讨论 

str () 函数 在 提取 数据 框 更 多 信息 的 时 候 很 实用 。 一 个 常见 的 问题 是 ， 有 时 候 一 个 数 
据 框 包含 的 向 量 是 字符 型 向 量 而 不 是 因子 ， 反 之 亦 然 。 这 个 问题 会 在 分 析 和 画图 的 时 
候 给 我 们 造成 一 些 困扰 。 

当 你 想 用 常规 的 方式 输出 一 个 数据 框 时 ， 只 需要 在 提示 符 (>) 后 面 输入 数据 框 的 名 
称 ， 然 后 敲 下 回 车 键 。 你 会 发 现 字 符 型 向 量 和 因子 的 输出 效果 一 样 ， 你 无 法 分 辨 出 哪 
个 是 字符 型 向 量 ， 哪 个 是 因子 。 只 有 当 你 运行 str () 函数 或 者 单独 输出 一 列 的 时 候 ， 
才能 看 出 它们 的 区 别 : 


tg <- ToothGrowth 
tg$supp <- as.character (tg$supp) 


str (tg) 


'data.frame': 60 obs. of 3 variables: 

9 Ten s num 4.2 L115 7.3 56 .4 30 E12 TL2 S52 7% os 
$ BUpp: Ghr “VO” VC VCR VC 。。 

$ dose: num 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 0.5 ... 


# 直接 输出 列 

# 原始 数据 框 ( 因子) 

ToothGrowth$supp 

[1] VC VC VC VC VC VC VC VC VC VC VC VC VC VC VC VC VC VC VC VC VC VEC VE VECVC 
[26] VC VC VC VC VC 0J 0 0J 0J 0J 0J OJ 0J 0J 0J 0J 0J 0J 0J 0J 0J 0J 0J 0U 0U 
[51] OJ OJ 0J 0J 0J 0J 0U 0J 0J 0U 


Levels: OJ VC 


# 新 数据 框 (字符 串 ) 
tg$supp 

[1] nyC™w wyC™ mVCn WyC™ wyC™ wyc™ nmVCn mVCn mVCI wyc™ nyc™ mVCI wVCR WYyC™ Wye™ 
[16] WYC™ nyC™ wyCn WyC™ WyC™ WYyC™ wyC™ myc™ WyC Wy WVCW wyC™ WVCI nmVCn WC 
[31] WOJ™ nmOJ nOJw nmOJn WOJ™ WOJ™ OJ™ WOJ™ nOJ™ nOJ™ WOUJ™ nOJ™ WOJ™ nOJ™ wOJ™ 
[46] nOJn nOJn OU wOU nOJ™ WOJ WOJ™ "OJ™ WOJ™ nmOU "OgJ™ nmOUJn nOJn OU WOJw 


15.3 ”向 数据 框 添加 列 


问题 
如 何在 数据 框 中 添加 列 ? 
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方法 
只 需 把 值 赋 到 新 的 列 即 可 。 


如 果 你 把 单个 值 赋 到 一 个 新 的 列 ， 那 么 整个 列 都 会 被 赋予 这 个 值 。 下 面 的 例子 是 增加 


一 个 新 的 列 ， 值 全 部 是 NA : 


dataSnewcol <- NA 


你 也 可 以 把 一 个 向 量 赋 到 新 的 一 列 : 


dataSnewCcol <- vec 


如 果 该 向 量 的 长 度 比 数据 框 的 行 数 小 ， 那 么 R 会 重复 这 个 向 量 ， 直 到 所 有 的 行 被 填充 。 


讨论 


数据 框 的 每 一 列 都 是 一 个 向 量 或 者 因子 。R 在 处 理 数 据 框 的 时 候 会 和 处 理 单 独 的 向 量 


时 略 有 不 同 ， 因 为 在 数据 框 中 所 有 列 的 长 度 都 是 一 样 的 。 


15.4 从 数据 框 中 删除 一 列 
问题 
如 何 从 数据 框 中 删除 一 列 ? 
方法 
把 该 列 的 值 赋 成 NULL 即 可 。 
data$badcol <- NULL 


讨论 
你 也 可 以 使 用 subset () 函数 并 将 一 个 -( 减 号 ) 置 于 待 删除 的 列 之 前 : 


# 返回 不 包含 badcol 列 的 数据 
data <- subset (data, select = -badcol) 


# 排除 badcol 列 和 othercol 列 
data <- subset (data, select = c(-badcol, -othercol)) 


男 见 
更 多 关于 获取 数据 框 子 集 的 信息 ， 参 见 15.7 节 。 


15.5 重 命 名 数据 框 的 列 名 


问题 
如 何 重 命名 数据 框 的 列 名 ? 


数据 塑 形 
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方法 
使 用 names (dat) <- 函数 即 可 : 
names (dat) <- c("namel", "name2", "name3") 
讨论 
如 果 你 想 通 过 列 名 重 命名 某 一 列 : 


1Library(gcookbook) # 为 了 使 用 数据 集 
names (anthoming)  # 输出 列 名 


"angle" "expt" "ctrl"™ 


"etrl"] <- ci("Control") 
"expt"] <- c("Experimental") 


names (anthoming) [names (anthoming) 
names (anthoming) [names (anthoming) 
names (anthoming) 


"wangle" "Experimental" "Control" 
你 也 可 以 通过 名 字 的 数值 位 置 重 命名 : 


names (anthoming) [1] <- "Angle 
names (anthoming) 


"Angle"™ "Experimental" "Control" 


15.6 重 排序 数据 框 的 列 


问题 

如 何 改变 数据 框 中 列 的 顺序 ? 
方法 

通过 列 的 数值 位 置 重 排序 : 


dat <- datlc(1,3,2)] 


通过 列 的 名 称 重 排 序 : 
dat <- dat[c("coll", "col3", "col2")] 


讨论 
前 面 的 例子 用 了 一 个 列表 形式 的 索引 。 数 据 框 本 质 上 是 若干 向 量 组 成 的 列表 ， 如 
果 改 变 其 索引 ， 我 们 会 得 到 另 一 个 数据 框 。 我 们 用 和 矩阵 形式 的 索引 也 能 得 到 同样 
的 效果 : 


library (gcookbook) # 为 了 使 用 数据 集 
anthoming 


angle expt ctrl 
-20 1 0 
-10 7 3 
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0 2 3 

10 0 3 

20 0 1 
anthoming[c(1,3,2)] # 列表 风格 的 索引 


angle ctrl expt 
-20 
-10 
0 

10 


1 
3 
2 
0 
20 0 


POWWO 


# 各 号 之 前 的 空白 表示 输出 所 有 行 
anthoming[，c(1,3,2)] # 矩阵 风格 的 索引 


angle ctrl expt 


-20 0 1 
-10 3 J. 

0 3 2 
10 3 0 
20 1 0 


这 种 情况 下 ， 两 种 方法 都 会 得 到 数据 框 。 然 而 ， 当 你 检索 单独 一 列 的 时 候 ， 列 表 风 格 的 
索引 会 得 到 数据 框 ， 而 和 矩阵 风格 的 索引 得 到 的 是 向 量 ， 除 非 你 加 上 参数 drop=FALSE : 
anthoming[3] # 列表 风格 的 索引 


Ctrl 


tw 喇 


1 
anthoming[，3] ## 矩阵 风格 的 索引 


03331 


anthoming[，3，drop=FALSE] # 怎 阵 风格 的 索引 ， 并 添加 参数 drop=FALSE 


ctrl 


性 号 


15.7 ”从 数据 框 提取 子 集 


问题 
如 何 得 到 数据 框 的 子 集 ? 
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方法 
使 用 subset () 函数 。 它 可 以 筛选 出 符合 一 系列 条 件 的 行 和 选 出 特定 的 列 。 
我 们 用 climate 数据 集 作为 例子 : 


library (gcookbook) # 为 了 使 用 数据 集 
climate 


Source Year Anomalyly Anomaly5Y Anomalyl0y Uncl0y 


Berkeley 1800 NA NA -0.435 0.505 
Berkeley 1801 NA NA -0.453 0.493 
Berkeley 1802 NA NA -0.460 0.486 
CRUTEM3 2009 0.7343 NA NA NA 
CRUTEM3 2010 0.8023 NA NA NA 
CRUTEM3 2011 0.6193 NA NA NA 


下 面 的 代码 只 会 输出 Source 是 "Berkeley" 的 行 ， 并 且 选 取 名 字 为 Year 和 Anomalyl0y 
的 列 : 


subset (climate, Source == "Berkeley", select = c(Year, Anomalyl0y)) 


Year Anomalyl0y 


1800 -0.435 
1801 -0.453 
1802 -0.460 
2002 0.856 
2003 0.869 
2004 0.884 


讨论 
我 们 还 可 以 通过 使 用 | C(OR) 和 & (AND) 操作 符 同 时 施加 多 种 筛选 条 件 。 例 如 ， 下 
面 的 代码 会 筛选 出 Source 是 "Berkeley" 并 且 Year 在 1900 和 2000 之 间 的 数据 ; 


Subset (climate, Source == "Berkeley" & Year >= 19 & Year <= 和 
select = cl(Year, Anomalyl0y)) 


Year Anomalyl0y 


1900 -0.171 
1901 -0.162 
1902 =0.177 
1998 0.680 
1999 0.734 
2000 0.748 


你 也 可 以 在 方 括号 里 面 加 入 索引 来 得 到 子 数 据 框 ， 虽 然 这 种 方法 不 是 很 优雅 。 下 面 的 
代码 和 上 面 用 到 的 代码 有 同样 的 效果 。 方 括号 里 面 、 喜 号 前 面 的 部 分 提取 行 ， 喜 号 后 
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面 的 部 分 提取 列 : 


celinabe [cinatesSouroe==" Be hee mm & climate$Year >= 1900 & climate$Year <= : 7 
cl("Year", "Anoma 1:")] 
如 果 用 这 种 方式 得 到 的 结果 只 有 一 列 ， 那 么 它 会 返回 一 个 向 量 而 不 是 一 个 数据 框 ， 除 
DR 


mabelel rateysor Pes er & climate$Year >= & climate$Year “= i 
c("Year", "Anomal "), drop=FALSE] 
最 后 ， 我 们 还 可 以 通过 行 和 列 的 数值 位 置 提取 子 数据 框 。 下 面 代码 得 到 的 是 前 100 行 
的 第 二 和 第 五 列 : 
climate[1l: 7 C(2; 5) 


我 建议 尽 可 能 地 使 用 名 称 索引 ， 避 免 使 用 数字 索引 。 前 者 使 代码 更 加 易 懂 ， 尤 其 是 你 
和 其 他 人 合作 的 时 候 或 者 在 你 完成 代码 几 个 月 甚至 几 年 以 后 回 过 头 来 再 看 的 时 候 ， 也 
使 得 代码 不 容易 因为 数据 框 行 和 列 的 增 减 而 得 不 到 原先 的 效果 。 


15.8 改变 因子 水 平 的 顺序 


问题 

如 何 改变 因子 水 平 的 顺序 ? 

方法 

因子 的 水 平 可 以 由 函数 factor () 具体 设 定 。 在 下 面 这 个 例子 中 ， 我 们 创造 了 一 


子 ， 但 是 它 的 因子 水 平 的 顺序 是 乱 的 : 
# 点 认 约 因子 水 平 的 版 序 是 按 字 母 尖 的 


sizes <- factor(c(" l1", "large", "large”, "small", "medium")) 
sizes 


small large large small medium 
Levels: large medium small 


# 改变 因子 水 平 的 顺序 
sizes <- factor(sizes, levels = c("small", "medium", "large")) 


sizes 


small large large small medium 
Levels: small medium large 


因子 的 顺序 也 可 以 在 第 一 次 创建 因子 时 通过 levels 参数 来 指定 。 

讨论 

R 中 有 两 种 因子 : 顺序 因子 (orderer factor) 和 常规 因子 (regular factor)。 在 两 种 类 型 中 ， 因 
子 水 平 都 是 按 某 种 顺序 排列 的 ， 区别 在 于 ， 对 于 顺序 因子 ， 因 子 水 平 的 顺序 是 有 意义 的 ， 
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而 对 于 常规 因子 ， 因 子 水 平 的 顺序 却 没 有 什么 意义 一 一 它 仅 仅 是 反映 了 数据 是 如 何 存储 的 。 
对 于 用 于 画图 的 数据 ， 两 者 的 区 别 一 般 来 说 不 太 重 要 ， 因 为 处 理 它们 的 方式 是 一 样 的 。 


因子 水 平 的 顺序 会 影响 图 形 输出 。 当 一 个 因子 变量 被 映射 到 ggplot2 中 的 图 形 属性 中 ， 
图 形 属性 会 采用 因子 水 平 的 顺序 。 如 果 因 子 被 映射 到 x 轴 , x 轴 的 标签 会 按 因 子 水 平 
的 顺序 排列 ; 如 果 因 子 被 映射 到 颜色 上 ， 那 么 图 例会 按 因 子 水 平 的 顺序 排序 。 


如 果 要 颠倒 因子 水 平 的 顺序 ， 可 以 使 用 函数 rev (levels ()) : 


factor (sizes, levels = rev(levels (sizes))) 


small large large small medium 
Levels: small medium large 


另 见 
如 果 要 依据 其 他 变量 的 值 对 因子 水 平 排序 ， 参 见 15.9 节 。 
改变 因子 的 顺序 对 控制 坐标 标签 和 图 例 的 顺序 很 有 用 。 参 见 8.3 节 和 10.3 节 。 


15.9 ”根据 数据 的 值 改变 因子 水 平 的 顺序 


问题 

如 何 根据 数据 的 值 改变 因子 水 平 的 顺序 ? 

方法 

使 用 函数 reorder () ， 该 函数 有 三 个 参数 : 因子 ， 排 序 依据 的 数据 和 汇总 数据 的 函数 。 
# 复制 一 份 数据 ， 因 为 我 们 要 修改 它 


iss <- InsectSprays 


iss$spray 
[I1] AAAAAAAAAAAABBBBBBBBBBBBCCCCCCCCCCCCDD 
[39] DDDDDDDDDDEEEEEEEEEEEEFFFFFFFFFFFEF 


Levels: ABCDEF 


iss$spray <- reorder (iss$spray, iss$count, FUN=mean) 


iss$spray 
[1l1] AAAAAAAAAAAABBBBBBBBBBBBCCCCCCCCCCCCDD 
[39] DDDDDDDDDDEEEEEEEEEEEERFFFFFFFFFFFEF 
attr(, "scores") 
A B C D E F 


14.500000 15.333333 2.083333 4.916667 3.500000 16.666667 
Levels: CEDABEF 


原始 因子 水 平 的 顺序 是 ABCDEF， 重 排 后 的 顺序 是 CEDABF。 新 的 顺序 是 由 iss$spray 
中 每 组 iss$count 的 平均 值 决 定 的 。 
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讨论 
仅 从 简单 的 输出 我 们 无 法 看 出 reorder () 的 作用 。 图 15-1 给 我 们 展示 了 经 过 reorder () 
函数 排序 后 的 三 个 图 形 。 在 这 些 图 形 中 ， 每 一 项 出 现 的 顺序 是 由 它们 的 某 些 值 决 定 的 。 


图 15-1 中 间 的 箱 线 图 是 按照 每 组 的 平均 值 排序 的 。 箱 线 图 中 箱子 里 的 水 平 线 表示 了 这 一 组 
的 中 位 数 。 注 意 到 这 些 中 位 数 并 不 是 从 左 到 右 严格 递增 的 。 这 是 因为 根据 均值 和 根据 中 位 
数 排序 得 到 的 顺序 是 不 一 样 的 。 为 了 使 中 位 数 线 从 左 到 右 递增 ， 就 像 15-1 右边 的 图 一 样 ， 
我 们 必须 按 每 组 的 中 位 数 排序 ， 于 是 在 reorder () 中 ， 我 们 应 该 使 用 函数 median () 。 


- 风 


CD E c EE 信 A BB 证 C D 一 A，F 扣 
spray reorder(spray, count) reorder(spray, count, FUN = median) 








J - 
-| 本 











15-1 左 图 : 原始 数据 中 图 : 以 每 组 平均 值 排序 后 的 数据 右 图 : 以 每 组 中 位 数 排序 后 的 数据 


万 见 
改变 因子 的 顺序 对 控制 坐标 标签 的 顺序 和 图 例 的 顺序 很 有 用 ， 参 见 8.3 节 和 10.3 节 。 


15.10 ”改变 因子 水 平 的 名 称 


问题 

如 何 改变 因子 水 平 的 名 称 ? 

方法 

使 用 plyr 包 中 的 revalue () po () 函数 。 


sizes <- factor(c( "small", "large", arge", "small", "medium") 
) LA 
sizes 


small large large small medium 
Levels: large medium small 


levels (sizes) 


"large" "medium" "small" 


# 通过 函数 revalue ()， 一 组 映射 关系 
sizesl <- ee clsmall="S", medium="M", large="L")) 
sizesl 
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SLLSM 


Levels: LMS 
ht 这 将 很 有 用 
revalue (Sizes c("small"="S", "medium"="M" large"="L") 

# mapvalues () 函数 使 用 两 组 向 量 ， 而 不 是 一 组 映射 关系 向 量 

mapvalues (sizes, c("small", "medium", "large"), c("S", "M", "L")) 


讨论 
revalue () 函数 和 mapvalues () 函数 很 方便 ， 但 是 在 R 中 有 一 个 更 传统 (也 更 笨重 ) 
的 方法 ， 使 用 levels () <- 函数 : 


Sizes <- factor(c( "small", "largée", "large", "small”, "medium")) 
# 通过 水 平原 名 称 找到 某 个 水 平 然后 重 命名 

levels (sizes) [levels (sizes)=="large"] <- "L" 

levels (sizes) [levels (sizes)=="medium"] <- "M" 

levels (sizes) [levels (sizes)=="small"] <- "S" 

sizes 

SLLSM 

Levels: LMS 


如 果 你 要 改变 所 有 水 平 的 名 称 ， 这 里 有 一 个 更 简单 的 方法 。 你 可 以 给 levels () 传递 
一 个 1ist 类 型 的 参数 : 


sizes <- factor(c("small", "large", "large", "small", "medium")) 
levels (sizes) <- list(S="small", M="medium", L="large") 

sizes 

SLLSM 


Levels: LMS 
在 这 个 方法 中 ， 所 有 的 因子 水 平 必须 在 一 个 1ist 里 面 指定 ; 如 果 这 个 1ist 里 面 有 任 
何 的 缺失 ， 缺 失 的 值 最 终 会 以 Na 代替 。 
通过 因子 水 平 的 位 置 也 可 以 重 命名 ， 但 是 这 种 方法 比较 策 : 

noth bi sop tr bee 


Sizes <- factor(c("small", arge", "large", "smail", "medium")) 


small large large small medium 
Levels: large medium small 


levels (sizes) []] <- "L" 
sizes 
small 工 工 small medium 


Levels: L medium small 
# 一 次 重 命 名 所 有 的 水 平 


levels (sizes) <- c{"L", "M", "Ss") 
sizes 
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[1] SLLSM 
Levels: LMS 


通过 因子 水 平 的 原始 名 称 去 改变 因子 水 平 的 名 称 比 通 过 位 置 改变 更 安全 ， 因 为 你 犯错 
误 的 机 会 更 少 ( 此 处 错误 可 能 很 难 被 发 现 )。 而 且 ， 如 果 原 始 数 据 改变 ， 因 子 水 平 的 
数值 位 置 也 可 能 会 改变 ， 这 可 能 会 对 你 的 分 析 产 生 严 重 但 是 不 易 察 觉 的 影响 。 


另 见 
如 果 需 要 改变 字符 向 量 的 名 称 ， 参 见 15.12 节 。 


15.11 去 掉 因 子 中 不 再 使 用 的 水 平 


问题 
如 何 从 一 个 因子 中 去 除 不 再 使 用 的 水 平 ? 
方法 


有 的 时 候 ， 在 你 对 一 堆 数 据 进 行 操作 之 后 ， 会 有 一 些 因 子 包含 了 不 再 使 用 的 因子 水 
平 。 下 面 就 有 一 个 例子 : 


sizes <- factor(c("small", "Jarge", "large", "small", "medium")) 
sizes <- sizes[1:3] 
sizes 


small large large 
Levels: large medium small 


为 了 删除 这 些 不 需要 的 水 平 ， 可 以 使 用 droplevels () 函数 : 


sizes <- droplevels (sizes) 
sizes 


small large large 
Levels: large small 


讨论 
droplevels () 函数 保留 了 因子 水 平 的 顺序 。 另 外 ， 你 可 以 使 用 except 参数 保留 某 个 
特定 的 水 平 。 


15.12 在 字符 向 量 中 改变 元 素 的 名 称 


问题 
如 何在 字符 向 量 中 改变 元 素 的 名 称 ? 
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方法 
用 plyr 包 中 的 revalue () nd mapvalues () 函数 : 


1 


sizes <- c("small", "large" 
sizes 


large", "small", "medium") 


"small" "large" "large" "small" "medium" 


# 通过 函数 revalue ()， 传 递 一 组 映射 关系 
sizesl <- revalue (sizes, cl(small="S", medium="M", large="L")) 
sizesl 


nS" WL™ Lh A now nM™ 


# 也 可 以 使 用 tt et 这 将 很 有 用 


revalue (sizes, cl(" 了 “Si ="M", "large"="L") 


# mapvalues () 函数 使 用 两 组 向 量 ， 而 不 是 一 组 驳 射 关系 向 量 
mapvalues (sizes, c("small", mmediamn "large"), cl(" "nM" 7) 


讨论 
在 R 中 ， 更 传统 的 方法 是 通过 方 括号 索引 去 选择 元 素 然后 对 它们 重合 名: 


sizes <- cl(" ll", "large", "large", "small", "medium") 
sizes 





"small" "large" "large" "small" "medium" 





sizes[sizes=="small"] <- " 
sizes[sizes=="medium"] <- "M" 
sizes[sizes=="]arge"] <- "L" 


Da wL™ nL™ NSw nM™ 
历 见 
如 果 你 要 改变 因子 水 平 的 名 称 ， 参 见 15.10 节 的 方法 。 


15.13 ”把 一 个 分 类 变量 转化 成 另 一 个 分 类 变量 


问题 

如 何 把 一 个 分 类 变量 转化 成 另 一 个 分 类 变量 ? 

方法 

如 下 面 的 例子 ， 我 们 使 用 PlantGrowth 数据 集 的 一 个 子 数据 集 : 


# 在 PlantGrowth 的 一 个 子 数据 集 上 操作 
pg <- PlantGrowth[c!( reriieelis ), ] 
pg 
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weight group 
4.17 ctrl 
5.58 ctrl 
4.81 trtl 
6:31 ‘Crt 
5:12 trt2 


在 这 个 例子 中 ， 我 会 把 一 个 分 类 变量 group 编码 到 另 一 个 分 类 变量 treatment 中 。 
果 原 先 的 值 是 "ctrl1"， 新 的 值 就 是 "No" ; 如 果 原 先 的 值 是 "trtl" 或 者 "trt2"， 


的 值 就 是 "Yes"。 
这 个 可 以 用 match () 函数 完成 ， 


pg <- PlantGrowth 


oldvals <= ei("ctrl", “trtI"y "trt2") 
newvals <- factor(c("No", "Y 


pg$treatment <- newvals[ match (pg$group, oldvals) | 


也 可 以 使 用 向 量 索 引 的 方法 (但 是 比较 笨拙 ): 
pg$treatment [pg$group == "ctri"] <- "no 
pg$treatment [pg$group == "trtl"] <- "yes" 
pgs$treatment [pg$group == "trt2"] <- "yes 


n 


# 转化 为 因子 
pg$treatment <- factor (pg$treatment) 


pg 


weight group treatment 
4.17 ctrl no 
5.58 <¢trl no 
4.81 trtl yes 
6.31 trt2 yes 
5.12 trt2 yes 


如 
新 


这 里 ， 我 们 把 两 个 因子 水 平 组 合 起 来 然后 把 结果 存 到 一 个 新 的 列 里 面 。 如 果 你 仅仅 是 


想 对 因子 水 平 重 命名 ， 参 见 15.10 节 的 方法 。 
讨论 
通过 使 用 & 和 | 操作 符 ， 编 码 准则 同样 可 以 基于 多 个 列 的 取 值 : 





pgS$newcol[pg$grOUP == "ctri" & pg$weight < 5] <- "no_ 
pg$snewcol[pg$group == "ctrl" & pg$weight >= 5] <- "no 
pg$newcol [pg$group == = <- "yes" 
pg$newcol [pg$group == "trt2"] <- "yes" 


pg$newcol <- factor (pg$newcol) 
pg 


数据 塑 形 


289 


weight group weightcat treatment newcol 


4.17 ctrl small no no_small 
5.58 ctrl large no no large 
4.81 trtl small yes yes 
11 trtl small Yes Yes 
6s31 trt2 large yes yes 
5.12 trt2 large yes yes 


我 们 也 可 以 使 用 interaction() 函数 把 数据 框 中 的 两 列 组 合成 一 列 。 该 函数 会 在 两 个 
值 的 中 间 加 上 一 个 "." 符号。 下 面 的 例子 把 weightcat 和 treatment 组 合 起 来 形成 新 
的 列 weighttrt : 


pg$weighttrt <- interaction (pg$weightcat, pg$treatment) 


pg 
weight group weightcat treatment newcol weighttrt 
4.17 ctrl small no no small small.no 
5.58 ctrl large no no large large.no 
4.81 trtl small yes yes small.yes 
4.17 trtl small yes yes small.yes 
6:31 tzt2 large yes yes large.yes 
S512 trt2 large yes yes large.yes 
另 见 


对 于 更 多 关于 改变 因子 水 平 名 称 的 方法 ， 参 见 15.10 节 。 
对 于 把 连续 变量 转变 为 分 类 变量 ， 参 见 15.14 节 。 


15.14 连续 变量 转变 为 分 类 变量 


问题 

如 何 把 连续 变量 转变 为 分 类 变量 ? 

方法 

下 面 的 例子 ， 我 们 使 用 PlantGrowth 数据 集 的 一 个 子 数 据 集 。 
# 在 PlantGrowth 的 一 个 子 数据 集 上 操作 


pg <- PlantGrowth[c(1,2,11,21,22), ] 
pg 


weight group 
4.17 ctrl 
5.58 ctrl 
4.81 trtl 
6.31 trt2 
5s12 zt2 


在 这 个 例子 中 ,我们 使 用 cut () 函数 把 一 个 连续 变量 weight 转化 为 分 类 变量 wtclass : 
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pg$wtclass <- cut (pg$weight, breaks = c(0, 5, 6, Inf)) 
pg 


weight group wtclass 
4.17 ctrl (0,5] 
5,.58 ‘ctrl ‘(5,6] 
4.81 trtl (0,5] 
4.17 trtl (0,5] 
6.31 trt2 (6,Inf] 
5.12 trt2 (5,6] 


讨论 
我 们 为 三 个 类 设 定 了 四 个 边界 值 ， 边 界 值 可 以 包括 正 无 穷 (Inf) 和 负 无 穷 (-Inf)。 如 果 


一 个 值 沙 在 我 们 规定 的 区 间 之 外 ， 它 的 类 别 将 被 定 为 NA 缺失 值 )。cut () 函数 的 输出 结 
果 是 一 个 因子 ， 你 可 以 从 下 面 这 个 例子 中 看 出 : 因子 水 平 的 名 称 是 以 生成 的 区 间 命 名 的 。 


为 了 改变 因子 水 平 的 名 称 ， 我 们 可 以 使 用 cut () 中 的 labels 参数 ， 
pg$wtclass <- cut (pg$weight, breaks = c(0, 5, 6, Inf), 
labels = c("small", "medium", "large")) 


pg 


weight group wtclass 
4.17 ctrl small 
5.58 ctrl medium 
4.81 trtl small 
4.17 trtl small 
6.31 trt2 large 
5.12 trt2 medium 


cut () 生成 的 区 间 是 左 开 右 闭 的 ， 换 各 话说 ， 它 们 不 会 包含 最 小 值 ， 但 是 它们 包含 了 最 大 
值 。 对 于 值 最 小 的 一 类 ， 你 可 以 通过 设 定 参数 include .lowest=TRUE 使 得 它 同时 包含 最 小 
值 和 最 大 值 。 在 这 个 例子 中 ， 这 么 做 会 使 得 0 被 包含 到 small 类 中 ， 否 则 ，0 会 被 赋 为 NA。 


如 果 你 想 让 生成 的 区 间 是 左 闭 右 开 的 ， 设 定 参 数 right=FALSE : 


cut (pg$weight, breaks = c(0, 5, 6, Inf), right = FALSE) 


另 见 
对 于 如 何 把 一 个 分 类 变量 转化 成 另 一 个 分 类 变量 ， 参 见 15.13 节 。 


15.15 ”变量 转换 


问题 
如 何 转换 数据 框 中 的 变量 ? 
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方法 
可 以 使 用 $ 操作 符 来 引用 新 列 并 对 其 赋予 新 值 。 在 本 例 中 ， 我 们 将 使 用 heightweight 
数据 集 的 复制 版 本 : 


library (gcookbook) # 为 了 使 用 数据 集 
# 复制 数据 集 

hw <- heightweight 

hw 


Sex ageYear ageMonth heightIn weightLb 


: 11.92 143 56.3 85.0 
f 12.92 155 62.3 105.0 
m 13.92 167 62.0 107.5 
m 12.58 151 59.3 87.0 


这 将 会 把 heightIn 的 单位 从 英尺 转换 到 厘米 ， 然 后 存储 到 新 的 一 列 heightcm 中 : 


hw$heightCm <- hw$heightIn * 
hw 


sex ageYear ageMonth heightIn weightLb heightCm 


f 11.92 143 56.3 85.0 143.002 
£ 12.92 155 62.3 105.0 158.242 
m 13.92 167 62.0 107.5 157.480 
nm 12.58 151 59.3 87.0 150.622 


讨论 

为 了 使 代码 更 容易 阅读 ， 你 可 以 使 用 transform() 或 plyr 包 中 的 mutate() 函数 。 你 
仅 需 指定 数据 框 一 次 ， 将 其 作为 函数 的 第 一 个 参数 ; 它们 提供 了 非常 清晰 的 语法 ， 尤 
其 适合 转换 多 个 变量 : 


hw <- transform(hw，heightCm = heightIn * 2.54, weightKg = weightLb / 2,204) 
library (plyr) 

hw <- mutate (hw, heightCm = heightIn * 2.54, weightkg = weightLb / 2.204) 

hw 


sex ageYear ageMonth heightIn weightLb heightCm weightKg 


全 11.92 143 56.3 85.0 143.002 38.56624 
f 12.92 155 62.3 105.0 158.242 47.64065 
m 13.92 167 62.0 107.5 157.480 48.77495 
m 12.58 151 59.3 87.0 150.622 39.47368 


也 可 以 根据 多 个 变量 计算 产生 一 个 新 的 变量 : 
# 这 些 功能 都 一 样 : 
hw <- transform(hw, bmi = weightKkg / (heightcm / )^2) 
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hw <- mutate (hw, bmi = weightKg / (heightcm / j*2) 
hw$bmi <- hw$weightKg / (hw$heightCm/100)*^ 


hw 

sex ageYear ageMonth heightIn weightLb heightCm weightKg bmi 
上 11.92 143 56.3 85.0 143.002 38.56624 18.85919 
£12.92 155 62.3 105.0 158.242 47.64065 19.02542 
m 13.92 167 62.0 107.5 157.480 48.77495 19.66736 
m 12.58 151 59.3 87.0 150.622 39.47368 17.39926 


transform() 和 mutate() 函数 的 最 大 区 别 是 transform() 会 同时 计算 所 有 的 新 列 ， 
而 mutate() 将 依次 计算 新 列 ， 这 样 在 计算 新 列 时 就 可 以 依赖 之 前 的 新 列 。 由 于 bmi 
是 由 heightcm 和 weightKg 计算 来 的 ， 因 此 用 transform() 不 能 同时 计算 出 这 些 变量 ; 
首先 得 计算 neightcm 和 weightKg， 然 后 再 计算 bmi， 如 上 面 代码 所 示 。 
使 用 mutate() 函数 时 ， 我 们 可 以 一 次 完成 这 些 计算 。 下 面 的 代码 和 上 面 分 开 计算 的 
代码 效果 一 样 : 
hw <- heightweight 
hw <- mutate (hw, 
heightCm = heightIn * 2.54, 
weightK9 = weightLb / 1 
bmi = weightKg / (heightCm / J 


为 见 
参阅 15.16 节 来 学 习 如 何 对 分 组 数据 进行 转换 。 


15.16 ” 按 组 转换 数据 


问题 

如 何 根 据 分 组 变量 来 转换 数据 框 中 的 数据 ? 

方法 

使 用 plyr 包 中 的 ddply() 函数 ， 在 参数 中 调用 transform() ， 并 指定 运算 ; 
library (MASS) # 为 了 使 用 数据 集 


library (plyr) 
cb <- ddply(cabbages, "Cult", transform, DevWt = HeadWt - mean (HeadWwt)) 


Cult Date HeadWt VitC DevWt 
c39 dl16 2 51 -0.40666667 
c39 dl16 2.2 55 -0.70666667 
c52 d21 3 66 -0.78000000 
c52 d21 1.6 72 -0.68000000 


数据 塑 形 293 


讨论 
我 们 首先 仔细 观察 cabbages 数据 集 。 它 有 两 个 分 组 变量 〈 即 因子 ) ， 一 个 是 cult， 
有 两 个 水 平 c39 和 c52， 另 一 个 是 Date， 有 三 个 水 平 : d16、d20 和 d21。 它 还 有 两 个 
数值 变量 ，Headwt 和 Vitc : 

cabbages 

Cult Date HeadWt VitC 


c39 dl16 2.5 5 
c39 d16 2.2 55 


c52 d21 1.5 66 
c52 d21 1.6 72 


假设 我 们 想 知 道 每 种 情况 下 Headwt 和 其 整体 均值 的 偏差 。 我 们 需要 做 的 就 是 计算 整 
体 均 值 ， 然 后 在 各 个 情况 下 减 去 它 : 

transform(cabbages, DevWt = HeadWt - mean (HeadWt)) 

Cult Date HeadWt VitC DevWt 


c39 dl6 2.5 51 -0.093333333 
c39 dl6 2.2 55 -0.393333333 


c52 d21 1.5 66 -1.093333333 
c52 d21 1.6 72 -0.993333333 


很 多 时 候 ， 我 们 想 对 每 个 分 组 进行 单独 处 理 ， 这 里 的 组 由 一 个 或 多 个 分 组 变量 指定 。 
比如 说 ， 我 们 可 能 想 这 样 标准 化 数据 : 求 各 个 组 的 组 内 均值 ， 然 后 求 组 内 偏差 ， 其 中 
组 是 由 Cult 变量 指定 的 。 对 于 这 种 例子 ， 可 以 使 用 plyr 包 中 的 ddply() 函数 ， 在 参数 
中 调用 transform() : 


library (plyr) 


cb <- ddply (cabbages, "Cult", transform, DevWt = HeadWt - mean (HeadWt) ) 
cb 
Cult Date HeadWt VitC DevWt 


c39 d16 2.5 51 -0.40666667 
c39 dl16 2.2 55 -0.70666667 


c52 d21 1s5 66 -0.78000000 
c52 d21 1.6 72 -0.68000000 


上 面 的 代码 首先 会 将 cabbages 数据 根据 cult 分 割 成 几 个 独立 的 数据 框 。cult 有 两 个 
水 平 ，c39 和 c52， 因 此 也 就 是 分 割 成 两 个 。 然 后 在 这 两 个 数据 框 上 使 用 transform () 
函数 ， 其 他 参数 保持 不 变 。 

注意 ，ddply() 函数 和 之 前 的 transform() 函数 具有 相同 的 参数 列表 。 唯 一 的 区 别 是 
ddply () 略微 调整 了 参数 的 位 置 ， 并 且 添 加 了 分 割 变量 (本 例 中 是 cult )。 
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标准 化 前 、 后 的 结果 参见 图 15-2。 
# 标准 化 前 
ggplot (cb，aes (x=Cult, y=HeadWt)) + geom boxplot () 





# 标准 化 后 
ggplot (ch, aes (x=Cult, y=DevWt)) + geom boxplot () 
2- 
起 一 
1 一 
$2 
= dd 
和 
有 © 
工 QO 0. 
2- 
—1 
1 ~ 
1 1 1 i 
c39 C52 c39 C52 
Cult Cult 








图 15-2 左 图 : 标准 化 前 右 图 : 标准 化 后 


你 也 可 以 根据 多 个 变量 来 分 组 、 切 割 数 据 框 ， 同 时 也 可 以 在 多 个 变量 上 进行 运算 。 本 
例 中 将 会 根据 cult 和 Date 切割 数据 ， 形 成 两 者 组 合 得 到 的 分 组 ， 然 后 计算 Headwt 
和 Vitc 在 各 个 组 的 偏差 : 


ddply (cabbages, c("Cult", "Date"), transform, 
DevWt = HeadWt - mean (HeadWt), DevVitC = VitC - mean (VitCcC)) 


Cult Date HeadWt VitC DevWt DevVitC 
c39 d16 2.5 51 -0.68 0,.7 
c39 d16 2.2 55 -0.98 ma 


c52 d21 1.5 66 0.03 -5 
1.6 0. 


8 
c52 d21 12 0313 2 


另 见 

汇总 分 组 数据 可 以 参阅 15.17 节 。 

15.17 分 组 汇总 数据 

问题 

如 何 对 基于 单个 或 多 个 变量 分 组 的 数据 进行 汇总 ? 
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方法 
配合 summarise () 函数 使 用 plyr 包 中 的 ddply() 函数 ， 并 指定 要 进行 的 操作 即 可 : 


library (MASS) # 井 为 了 使 用 数据 集 
library (plyr) 


ddply (cabbages, cl("Cultr", "Date"), summarise, Weight = mean (HeadWwt), 
VitC = mean (VitC)) 


Cult Date Weight VitC 
c39 dl6 3.18 50.3 


c39 d20 2.80 49.4 
c39 d21 2.74 54.8 
c52 dl6 2.26 62.5 
c52 d20 3.11 58.9 
c52 d21 1.47 71.8 


讨论 
我 们 先 来 仔细 观察 cabbages 数据 集 。 它 有 两 个 可 以 用 来 分 组 的 因子 : cult， 因 子 水 平 
为 c39 和 c52; Date， 因 子 水 平 为 dl6、d20 和 d21。 它 还 有 两 个 数值 变量 : HeadWt 和 
VitCQs 
Cabbages 
Cult Date HeadWt VitC 
c39 dl16 2 3 
c39 dl6 2.2 55 
c52 d2l 
c52 d21 
计算 Headwt 的 整体 平均 值 是 很 简单 的 。 我 们 仅仅 需要 对 相应 的 列 套用 mean () 函数 即 
可 ， 但 接 下 来 我 们 会 发 现 ， 有 时 使 用 summarise () 会 更 合适 : 


library (plyr) 
summarise (cabbages, Weight = mean (HeadWt) ) 


1.5 66 
1.6 72 


Weight 
2.593333 
得 到 的 结果 是 一 行 一 列 的 数据 框 ， 列 名 为 Weight。 


我 们 经 常会 根据 一 个 分 组 变量 探索 每 个 数据 子 集中 的 信息 。 比 如 ， 假 设 我 们 想 找 到 每 
组 cult 下 的 均值 。 为 此 ， 我 们 需要 在 ddply () 中 调用 summarise()。 在 我 们 同时 使 
用 它们 时 ， 注 意 参 数 是 如 何 变化 的 : 


library (plyr) 
ddply (cabbages, "Cult", summarise, Weight = mean (HeadWt) ) 
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Cult Weight 

c39 2.906667 

c52 2.280000 
上 面 的 代码 首先 根据 cult 的 值 将 数据 框 cabbages 切割 成 了 几 个 小 数据 框 。 因 子 cult 有 
两 个 水 平 ，c39 和 c52， 因 此 也 就 有 两 个 数据 框 。 然 后 在 每 个 数据 框 上 套用 summari se () 
函数 ， 利 用 mean () 函数 计算 每 个 数据 框 中 Headwt 的 均值 并 赋 给 新 的 列 Weight。 结 果 就 
得 到 了 两 个 一 行 的 数据 框 ， 然 后 ddply() 将 它们 合并 为 一 个 ， 正 如 结果 所 示 。 


根据 多 个 变量 〈 即 多 个 列 ) 切割 数据 框 然 后 汇总 也 是 很 简单 的 : 用 一 个 包含 多 个 变量 
名 的 向 量 即 可 。 同 样 ， 可 以 对 多 个 可 计算 的 列 进行 汇总 。 这 里 我 们 根据 cult 和 了 Date 
分 组 ， 得 到 HeadWwt 和 Vitc 在 各 组 的 均值 : 


ddply (cabbages, c("Cult", "Date"), summarise, Weight = mean (HeadWt) ， 
VitC = mean (VitC) ) 


Cult Date Weight VitC 
c39 dl6 3.18 50.3 


c39 d20 2.80 49.4 
c39 d21 2.74 54.8 
c52 dl6 2.26 62.5 
C52 d20 3.11 58.9 
c52 d21 1.47 71.8 


除了 求 均值 ， 我 们 还 可 以 做 很 多 其 他 的 事 。 比 方 说 ， 你 可 能 想 计 算 各 个 组 的 标准 差 和 
频数 ;使 用 sd () 来 计算 标准 差 ，length () 来 计算 频数 : 
ddply (cabbages, c("Cult", "Date"), summarise, 
Weight = mean (HeadWt), 


sd = sd(Headwt), 
n = length (HeadWt)) 


Cult Date Weight sd n 
c39 di6 3.18 0.9566144 10 
c39 d20 2.80 0.2788867 10 
c39 d21 2.74 0.9834181 10 
c52 d16 2.26 0.4452215 10 
c52 d20 3.11 0.7908505 10 
c52 d21 1.47 0.2110819 10 


还 有 一 些 有 用 的 函数 也 能 够 得 到 汇总 统计 量 ， 包 括 min () 、max () 、median () 等 。 


处 理 缺 失 值 


一 个 可 能 的 问题 是 : 如 果 原 数据 中 含有 缺失 值 (NA)， 会 导致 输出 的 结果 中 也 有 。 我 
们 看 看 如 果 在 Headwt 引入 几 个 缺失 值 会 发 生 什么 ? 


cl <- cabbages # 复制 数据 
cl$HeadWwt [c(i,20,45)] <- NA # 数据 某 些 值 赋 值 为 NA 
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ddply(cl, c("Cult", "Date"), summarise, 
Weight = mean (Headwt), 
sd = sd(HeadWt), 
= length (HeadWwt)) 


Cult Date Weight sd n 
c39 d16 NA NA 10 
c39 d20 NA NA 10 


c39 d21 2.74 0.9834181 10 
c52 dl6 2.26 0.4452215 10 
c52 d20 NA NA 10 
c52 d21 1.47 0.2110819 10 


这 里 有 两 个 问题 。 第 一 个 是 如 果 任 一 输入 值 包含 NA，mean () 和 sd () 函数 都 会 返回 NA。 
幸运 的 是 ， 这 些 函 数 都 有 一 个 参数 来 处 理 这 个 问题 : 设置 na.rm=TRUE 即 可 忽略 缺失 值 。 


第 二 个 问题 是 1ength () 函数 并 没有 对 缺失 值 进行 特殊 处 理 ， 而 是 将 它们 视 为 “正常 
值 ”， 但 是 这 些 都 意味 着 缺失 数据 ， 因 此 它们 不 应 该 被 计算 在 频数 中 。length () 函数 
并 没有 na. rm 的 选项 ， 但 是 我 们 可 以 用 sum(!is.na(...)) 达到 相同 的 效果 。is.nal) 
返回 一 个 逻辑 向 量 : NA 返回 TRUE， 非 NA 返回 FALSE。 用 ! 取 反 后 ， 再 用 sum() 函数 
将 TRUE 的 数量 加 起 来 。 最 终 的 结果 就 是 非 缺 失 值 的 频数 : 


ddply(cl, c("Cult", "Date"), summarise, 
Weight = mean (HeadWt, na.rm=TRUE), 
sd = sd(HeadWwt, na.rm=TRUE), 
n = sum(!is.na (HeadWwt))) 


Cult Date Weight sd n 
c39 dl6 3.255556 0.9824855 9 
c39 d20 2.722222 0.1394433 9 
c39 d21 2.740000 0.9834181 10 
c52 dl6 2.260000 0.4452215 10 
c52 d20 3.044444 0.8094923 9 
c52 d21 1.470000 0.2110819 10 


组 合 缺 失 
如 果 在 分 组 变量 中 有 任何 “ 空 组 合 ”， 它 们 就 不 会 出 现在 汇总 的 数据 框 中 。 缺 失 组 合 
会 给 绘图 带 来 麻烦 。 为 了 阐述 这 个 问题 ， 我 们 移 除 c52 和 d21 的 因子 组 合 的 所 有 样本 
点 。 图 15-3 左 图 就 以 柱状 图 的 形式 展示 了 组 合 缺 失 时 的 后 果 : 

# 复制 cabbages 并 移 除 同 时 包含 c52 和 d21 的 行 


C2 <- subset (cl, !( Cult=="c52" & Date==nd2l" ) ) 


c2a <- ddply(c2, c("Cult", "Date"), summarise, 
Weight = mean (HeadWt, na.rm=TRUE), 
sd = sdl(HeadWt, na.rm=TRUE), 
n= sum(!is.na (HeadWwt) )) 

c2a 
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Cult Date Weight sd n 
c39 dl6 3.255556 0.9824855 9 
c39 d20 2.722222 0.1394433 9 
c39 d21 2.740000 0.9834181 10 
c52 dl6 2.260000 0.4452215 10 
c52 d20 3.044444 0.8094923 9 
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图 15-3 左 图 : 有 组 合 缺失 的 柱状 图 右 图 : 填充 了 缺失 的 组 合 


# 绘图 
ggplot (c2a, aes (x=Date, fill=Cult, y=Weight)) + geom bar(position="dodge") 


为 了 填充 缺失 的 组 合 ( 见 图 15-3 右 图 )， 在 ddply() 函数 中 使 用 .drop=FALSE 即 可 : 


c2b <- ddply(c2, c("Cult", "Date"), .drop=FALSE, summarise, 
Weight = mean (HeadWt, na.rm=TRUE), 
sd = sd(HeadWwt, na.rm=TRUE), 
n= suml(!is.na (HeadWwt))) 

c2b 


Cult Date Weight sd n 
c39 d16 3.255556 0.9824855 9 
c39 d20 2.722222 0.1394433 9 
c39 d21 2.740000 0.9834181 10 
c52 dl6 2.260000 0.4452215 10 
c52 d20 3.044444 0.8094923 9 


c52 d21 NaN NA 0 
# 绘图 
ggplot (c2b, aes (x=Date, fill=Cult, y=Weight)) + geom bar (position="dodge") 
另 见 


如 果 你 想 计算 标准 误差 和 置信 区 间 ， 参 见 15.18 节 。 
6.8 节 给 出 了 一 个 使 用 stat_summary() 计算 均值 并 将 均值 堆 释 放 在 图 上 的 例子 。 
要 对 数据 进行 分 组 转换 ， 参 见 15.16 节 。 
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15.18 ”使 用 标准 误差 和 置信 区 间 来 汇总 数据 


问题 

如 何 使 用 标准 误差 或 置信 区 间 来 汇总 数据 ? 

方法 

计算 均值 的 标准 误差 包括 两 步 :首先 计算 各 组 的 标准 差 和 频数 ， 然 后 用 这 些 值 来 计算 
得 到 标准 误差 。 各 组 的 标准 误差 就 是 标准 差 除 以 样本 量 的 平方 根 。 


library (MASS) # 为 了 使 用 数据 集 
library (plyr) 


ca <- ddply (cabbages, cl("Cult", "Date"), summarise, 
Weight = mean (HeadWt, na.rm=TRUE), 
sd = sd(HeadWt, na.rm=TRUE), 
n = sum(!is.na (HeadWt)), 
se = sd/sqrt (n)) 
ca 


Cult Date Weight sd n se 
c39 dl6 3.18 0.9566144 10 0.30250803 
c39 d20 2.80 0.2788867 10 0.08819171 
c39 d21 2.74 0.9834181 10 0.31098410 
c52 dl6 2.26 0.4452215 10 0.14079141 
c52 d20 3.11 0.7908505 10 0.25008887 
c52 d21 1.47 0.2110819 10 0.06674995 


a 在 plyr 1.8 之 前 的 版 本 中 ，summarise() 会 同时 创建 所 有 的 新 列 ， 因 此 你 
[4 得 在 创建 sd 和 Da 列 之 后 再 单独 创建 se 列 。 


讨论 
另外 一 种 方法 是 在 ddply 函数 内 部 计算 标准 误差 。 因 为 在 ddply 函数 内 部 中 不 能 引用 
sd 和 mn， 因此 我 们 得 重新 计算 得 到 se。 下 面 的 代码 和 之 前 展示 的 两 步 法 效果 是 一 样 的 : 


ddply (cabbages, cl("Cult", "Date"), summarise, 
Weight = mean (HeadWt, na.rm=TRUE), 
sd = sdl(HeadWt, na.rm=TRUE), 


n = sum(!is.na (HeadWwt)), 
se = sd / sqrt(n)) 
+ » 
置信 区 间 


置信 区 间 是 通过 均值 的 标准 误差 和 自由 度 计 算得 到 的 。 要 计算 置信 区 间 ， 首 先 使 用 
qt () 函数 得 到 分 位 数 ， 然 后 和 标准 误差 相 乘 即 可 。 给 定 概率 值 和 自由 度 ，qt () 函数 
会 计算 出 对 应 + 分布 的 分 位 数 。 对 95% 的 置信 区 间 来 说 ， 应 该 使 用 0.975 的 概率 值 ; 


300 第 15 章 


对 钟 形 的 t 分 布 ， 这 对 应 了 曲线 两 端 各 2.5% 的 面积 。 自 由 度 是 样本 量 大 小 减 去 1。 


下 面 的 代码 将 会 计算 每 组 标准 误差 的 乘 数 。 由 于 一 共有 6 个 组 并 且 每 组 都 有 10 个 观 
测 值 ， 因 此 它们 有 相同 的 乘 数 。 

ciMalt <- gf(- 7/ Ca$n-1) 

ciMult 


# 2.262157 2.262157 2.262157 2.262157 2.262157 2.262157 
现在 我 们 可 以 将 上 面 的 向 量 乘 以 标准 误差 来 得 到 95% 的 置信 区 间 : 


caS$Sci <- ca$se * ciMult 

Cult Date Weight sd n se ci 
c39 dl6 3.18 0.9566144 10 0.30250803 0.6843207 
c39 d20 2.80 0.2788867 10 0.08819171 0.1995035 
c39 d21 2.74 0.9834181 10 0.31098410 0.7034949 
c52 dl6 2.26 0.4452215 10 0.14079141 0.3184923 


c52 d20 3.11 0.7908505 10 0.25008887 0.5657403 
c52 d21 1.47 0.2110819 10 0.06674995 0.1509989 


我 们 可 以 一 步 完 成 上 面 的 事情 ， 如 下 : 


ca$ci95 <- ca$se * qt(.975, cas$n) 
对 99% 的 置信 区 间 ， 使 用 0.995 的 概率 值 。 


误差 条 表示 均值 的 标准 误差 ， 它 和 置信 区 间 有 相同 的 功能 : 给 看 图 的 人 展示 估计 总 体 均 
值 的 好 坏 程 度 。 标 准 误差 是 抽样 分 布 的 标准 差 。 置 信 区 间 更 容易 解释 。 很 粗略 地 来 说 ， 
95% 的 置信 区 间 意 味 着 总 体 均值 有 95% 的 机 率 落 在 区 间 中 《实际 上 ， 它 的 含义 并 不 是 这 
样 ， 但 是 这 貌似 简单 的 话题 很 难 在 这 里 解释 ， 如 果 你 想 深入 了 解 ， 请 阅读 贝 叶 斯 统计 学 )。 


这 个 函数 会 一 并 计算 标准 差 、 频 数 、 标 准 误差 和 置信 区 间 。 并 且 它 还 可 以 处 理 缺 失 值 
和 空缺 组 合 ， 此 时 只 需 设置 na.rm 和 .drop 选项 即 可 。 函 数 默认 计算 的 是 95% 的 置信 
区 间 ， 这 个 也 可 以 通过 conf .interval 参数 来 改变 。 

summarySE <- function (data=NULL, measurevar, groupvars=NULL, 


conf.interval=.95, na.rm=FALSE, .drop=TRUE) { 
require (plyr) 


# 新 版 本 的 length 可 以 处 理 缺失 值 : 如 果 na.rm==T， 则 排除 缺失 值 
length2 <- function (x, na.rm=FALSE) { 

if (na.rm) sum(!is.na (x)) 

else length (x) 
} 


# 汇总 
datac <- ddply(data, groupvars, .drop=,.drop, 
.fun = function (xx, col, na.rm) 1 
c(n = length2 (xx[,col], na.rm=na.rm), 
mean = mean (xx[,col], na.rm=na.rm), 
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sd = sd (xx[,col], na.rm=na.rm) 
) 
}s 
measurevar, 
na.rm 
) 
# 重 命名 "mean"” 列 
datac <- rename (datac, cl("mean" = measurevar)) 


datac$se <- datac$sd / sqrt(datac$n) # 计算 均值 的 标准 误差 


# 标准 误差 的 置信 区 间 乘 数 

# 为 置信 区 间 计 算 七 统计 量 ; 

# 比如 ， 如 果 conf.interval 是 .95， 就 使 用 .975 (上 /下 ), 并 且 
# 使 用 df=n-1， 或 如 果 n==0， 则 df=0 

ciMult <- qt (conf.interval/2 + .5, datac$n-1) 

datac$ci <- datac$se * ciMult 


return (datac) 
} 


这 里 的 应 用 例子 计算 99% 的 置信 区 间 ， 并 且 可 以 处 理 缺 失 值 和 空缺 组 合 : 


# 移 除 c52 和 d21 对 应 的 所 有 行 
C2 <- Subset (cabbages, !( Cult=="c52" & Date=="d21" ) ) 


# 将 一 些 值 设置 为 NA 
c2$HeadWt [c(1,20,45)] <- NA 


summarySE (c2, "HeadWt", c("Cult", "Date"), conf.interval=.99, 
na.rm=TRUE, .drop=FALSE) 


Cult Date n Headwt sd se ci 
c39 dl6 9 3.255556 0.9824855 0.32749517 1.0988731 
c39 d20 9 2.722222 0.1394433 0.04648111 0.1559621 
c39 d21 10 2.740000 0.9834181 0.31098410 1.0106472 
c52 dl6 10 2.260000 0.4452215 0.14079141 0.4575489 
c52 d20 9 3.044444 0.8094923 0.26983077 0.9053867 
c52 d21 0 NaN NR NA NA 

Warning message: 

In qt(p, df, lower.tail, log.p) : NaNs produced 


有 空缺 组 合 的 时 候 ， 程 序 会 给 出 警告 信息 。 这 并 不 是 一 个 问题 ， 只 是 告诉 我 们 它 不 能 
计算 一 个 没有 观测 值 的 组 的 分 位 数 。 


田 见 
使 用 这 里 计算 的 值 并 添加 误差 条 到 一 个 图 上 ， 参 见 7.7 节 。 
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15.19 “把 数据 框 从 “ 宽 ” 变 “长 ” 


问题 
如 何 把 把 数据 框 从 “ 宽 ” 变 “长 


方法 
使 用 reshape2 包 中 的 melt () 函数 。 在 anthoming 数据 集中 ，angle 表示 蚂蚁 行走 方 
向 与 家 的 方向 的 角度 〈 正 表示 顺 时 针 )， 每 个 angle 有 两 个 度量 变量 (measurement) 
描述 它 ，expt 表示 在 实验 条 件 下 走 这 个 方向 的 蚂蚁 数量 ，ctr1 表示 在 控制 条 件 下 走 
这 个 方向 的 蚂蚁 数量 : 

library(gcookbook) # 为 了 使 用 数据 


anthoming 


angle expt ctrl 


-20 1 0 
-10 7 3 
0 2 3 
10 0 3 
20 0 1 


我 们 可 以 重 塑 该 数据 的 结构 ， 把 两 个 度量 变量 都 放 在 单独 一 列 中 。 具 体 的 做 法 是 把 这 
两 列 的 值 放 在 一 列 中 并 新 增 一 列 存放 两 列 的 名 称 : 


library (reshape2) 
melt (anthoming, id.vars="angle", variable.name="condition", value.name="count") 


angle condition count 


-20 expt 1 
-10 expt , 
0 expt 2 
10 expt 0 
20 expt 0 
-20 ctrl 0 
-10 ctrl 3 
0 ctrl 3 
10 ctrl 3 
20 ctrl 1 

两 个 数据 框 包含 了 一 样 的 信息 ， 但 是 第 二 种 组 织 方式 在 某 些 情况 下 更 有 利于 我 们 分 析 。 


讨论 

在 原 数 据 中 ， 有 标识 变量 (ID variable) 和 度量 变量 (measure variable)。 标 识 标量 表明 哪些 
值 要 汇集 到 一 起 ， 即 哪些 值 是 在 描述 同一 个 对 象 。 在 原 数据 中 ， 第 一 行 有 两 个 度量 变量 来 
描述 angle 是 -20 的 情况 。 在 变换 后 的 数据 中 ， 两 个 度量 变量 expt 和 ctrl 不 再 出 现在 同一 
行 中 ， 但 是 我 们 仍然 可 以 看 出 它们 都 在 描述 同一 个 angle， 因 为 它们 的 angle 值 是 一 样 的 。 


数据 塑 形 303 


度量 变量 会 被 默认 为 除 标 识 变量 以 外 的 所 有 变量 。 这 些 度量 变量 的 名 称 会 被 放 到 一 个 
叫 variable.name 的 列 中 ， 而 它们 对 应 的 取 值 则 是 放 到 一 个 名 为 value .name 的 列 中 。 


如 果 你 不 想 用 所 有 的 非 标识 变量 作为 度量 变量 ， 可 以 指明 哪些 变量 是 你 需要 的 〈 人 参数 
measure.vars)。 例 如 ， 在 drunk 数据 集中 ， 我 们 可 以 只 用 0-29 和 30-39 这 两 组 : 


drunk 
sex 0-29 30-39 40-49 50-59 60+ 
male 185 207 260 180 71 
female 4 13 10 7 10 


melt (drunk, id.vars="sex", measure.vars=c ("0-29", "30-39"), 
variable.name="age", value.name="count") 


Sex age count 
male 0-29 185 
female 0-29 4 
male 30-39 207 
female 30-39 13 


同样 ， 也 可 以 用 多 列 作为 标识 变量 : 


plum wide 


length time dead alive 
long at once 84 156 
long in spring 156 84 
short at once 133 107 
short in spring 209 31 


melt (plum wide, id.vars=c ("length", "time"), variable.name="survival", 
value.name="count") 


length time survival count 
long at_once dead 84 
long in spring dead 156 
short at once dead 133 
short in spring dead 209 
long at once alive 156 
long in spring alive 84 
short at once alive 107 
short in spring alive 31 


有 些 数据 集 并 不 具备 标识 变量 。 例 如 ， 在 corneas 数据 集中 ， 每 一 行 代 表 了 一 对 度量 
变量 ， 但 是 这 里 没有 标识 变量 。 没 有 标识 变量 ， 你 无 法 知道 哪些 值 是 在 描述 同一 个 对 
象 。 这 种 情况 下 ， 你 可 以 在 用 melt () 函数 之 前 给 这 个 数据 框 添加 一 个 标识 变量 。 

# 创造 数据 的 一 个 副本 


CO <- Corneas 
CO 


affected notaffected 


488 484 
478 478 


304 第 15 章 


480 492 
426 444 
440 436 
410 398 
458 464 
460 476 

# 添加 标识 列 

co$id <- 1:;nrow (co) 


melt (co, id.vars="id 


[= 


OA PFoO oA NP 


affected 
affected 
affected 
affected 
affected 
affected 
affected 
affected 
notaffected 
notaffected 
notaffected 
notaffected 
notaffected 
notaffected 
notaffected 
notaffected 


", variable.name="e 


eye thickness 


488 
478 
480 
426 
440 
410 
458 
460 
484 
478 
492 
444 
436 
398 
464 
476 


", value.name="thickness") 


用 数值 作为 标识 变量 可 能 会 给 后 续 分 析 带 来 问题 ， 所 以 你 可 能 要 用 as .character () 
函数 把 它 转化 成 字符 型 的 向 量 或 者 用 factor () 将 其 转化 为 因子 。 


另 见 


从 “长 ”到 “ 宽 ” 的 转化 ， 参 见 15.20 节 。 
stack() 函数 也 可 以 把 数据 框 从 “ 宽 ” 变 “长 ”， 请 参见 R 的 帮助 文档 。 


15.20 ”把 数据 框 从 “长 ” 变 “ 宽 ” 


问题 


如 何 把 数据 框 从 “长 ” 变 “ 宽 2? 


方法 


使 用 reshape2 包 中 的 dcast () 函数 。 在 这 个 例子 中 ， 我 们 使 用 plum 数据 集 ， 它 是 以 


长 格式 进行 存储 的 。 


library(gcookbook) # 为 了 使 用 数据 集 


plum 
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length time survival count 
long at_once dead 84 
long in spring dead 156 
Short at _once dead 133 
short in spring dead 209 
long at_once alive 156 
long in spring alive 84 
Short at once alive 107 
short in spring alive 31 


从 “长 ”到 “ 宽 ” 的 转化 把 一 列 中 不 重复 的 值 提取 出 来 并 用 它们 作为 新 列 的 名 称 ， 然 
后 用 另 一 列 作为 新 列 的 数据 源 。 例 如 ， 我 们 可 以 把 survival 中 的 值 放 到 表格 顶端 ， 
然后 用 count 中 的 值 去 进行 填充 : 


library (reshape2) 
dcast (plum, length + time ~ survival, value,.var="count") 


length time dead alive 
long at once 84 156 
long in spring 156 84 


short at once 133 107 
short in spring 209 31 


讨论 
dcast () 函数 要 求 你 指明 标识 变量 〈( 留 下 来 的 列 ) 和 可 变 变量 (variable variable)〔 会 
转化 成 新 生成 列 的 变量 )。 这 个 步骤 用 公式 完成 ， 波 浪 线 (~) 左边 表示 标识 变量 ， 右 
边 表示 可 变 变 量 。 
前 面 的 例子 有 两 个 标识 变量 和 一 个 可 变 变 量 。 下 一 个 例子 中 只 有 一 个 标识 变量 但 是 有 
两 个 可 变 变 量 。 当 有 多 个 可 变 变 量 时 ， 生 成 的 列 名 由 下 划 线 连接 起 来 : 

dcast (plum, time ~ length + survival, value.var="count") 

time long dead long alive short dead short alive 


at_once 84 156 133 107 
in spring 156 84 209 31 


另 见 
数据 从 “ 宽 ” 变 “长 ”， 参 见 15.19 节 。 
unstack() 函数 也 可 以 把 数据 框 从 “长 ” 变 “ 宽 ”"， 参 见 R 的 帮助 文档 。 


15.21 ”把 时 间 序 列 数据 对 象 拆 分 成 时 间 和 数据 


问题 
如 何 把 时 间 序 列 对 象 拆 分 成 观测 时 间 和 每 个 时 点 的 观测 数据 ? 
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方法 


time() 函数 可 以 得 到 每 个 观测 的 时 间 值 ， 然 后 用 as .numeric () 





转化 为 数值 形式 : 
# 查看 时 间 序 列 对 象 nhtemp 
nhtemp 
Time Series: 
Start = 1912 
End = 1971 
Frequency = 1 
[1] 49.9 52.3 49.4 51.1 
[16] 50.7 50.9 50.6 51.5 
[3 5130 50.6.51.7 51.5 
[46] 52.6 50.2 52.6 51.6 
# 得 导 到 每 次 大 和] 
as .numeric i 
[1] 1912 1913 1914 1915 


[16] 1927 1928 1929 1930 


[31] 1942 1943 1944 1945 
[46] 1957 1958 1959 1960 
# 得 到 每 次 观测 的 值 
astnineric (nlite) 

[1] 49.9 52.3 49.4 51.1 
以 6] S067 50.9 50.6 $1.5 
L31] S10 S50.6 51.7 51.5 
[46] 52.6 50.2 52.6 51.6 
# 把 它们 放 进 一 个 数据 框 中 
nht <- data.frame (year=as 
Nht 
Year temp 
1912 49.9 
1913 52.3 
1970 51.9 
1971 53.0 


讨论 


1916 
1931 
1946 
1961 


1917 
1932 
1947 
1962 


1918 
1933 
1948 
1963 


1919 
1934 
1949 
1964 


49.3 
50.2 
51.4 
51.4 


1920 
1935 
1950 
1965 


49.3 
50.2 
51.4 
51.4 


1921 
1936 
1951 
1966 


1922 
1937 
1952 
1967 


1923 
1938 
1953 
1968 


1924 
1939 
1954 
1969 


1925 
1940 
1955 
1970 


.numeric (time (nhtemp)), temp=as.numeric (nhtemp)) 


函数 将 时 间 和 该 


数据 


1926 
1941 
1956 
1971 


当 观 测 时 间 是 有 规律 的 时 间 区 间 时 ， 时 间 序 列 对 象 能 有 效 地 存储 信息 ， 但 是 为 了 使 用 


ggplot2, 


它们 需要 被 拆 分 成 观测 时 间 和 观测 数据 。 
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有 些 时 间 序 列 对 象 是 周期 性 的 。 例 如 ，presidents 数据 集 ， 每 一 年 有 四 个 观测 ， 一 个 
季度 一 次 观测 : 


presidents 


Qtrl Qtr2 Qtr3 Qtr4 
1945 NA 87 82 75 
1946 63 50 43 32 
1947 35 60 54 55 


1972 49 61 NA NA 
1973 68 44 40 27 
1974 28 25 24 24 


为 了 把 它 转 化 为 有 两 列 值 的 数据 框 ， 其 中 一 列 用 分 数 表示 年 ， 其 步骤 和 前 面 的 一 样 : 


pres rating <- data,frame ( 
year = as.numeric (time (presidents)), 
rating = as.numeric(presidents) 

) 

pres rating 


year rating 
1945.00 NA 
1945.25 87 
1945.50 82 
1974.25 25 
1974.50 24 
1974.75 24 


我 们 也 可 以 把 年 和 季度 分 别 存 在 两 列 ， 这 可 能 对 于 某 些 可 视 化 方法 会 有 所 帮助 : 


pres rating2 <- data.frame( 


year = as.numeric (floor (time (presidents))), 
quarter = as.numeric(cycle (presidents)), 
rating = as.numeric (presidents) 


) 
pres_rating2 


Year quarter rating 


1945 1 NA 

1945 2 87 

1945 3 82 

1974 2 25 

1974 8 24 

1974 4 24 
男 见 


zo0 包 在 处 理 时 间 序 列 对 象 的 时 候 也 非常 有 用 。 
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加 附录 A 
ggplot2 介 绍 








本 书 的 很 多 内 容 都 涉及 Hadley Wickham 编写 的 ggplot2 包 。ggplot2 的 出 现 只 有 几 年 时 
间 ， 但 就 在 这 短 短 的 时 间 之 内 ， 它 已 经 吸引 了 R 社区 内 的 众多 用 户 ， 这 无 不 归 因 于 它 
的 功能 丰富 、 有 着 清晰 一 致 的 接口 以 及 美观 的 输出 。 
相 比 R 中 的 其 他 绘图 包 ，ggplot2 采取 了 一 种 不 同 的 制图 方式 。 它 得 名 于 Leland 
Wilkinson 的 《Grammar of Graphics》( 图 形 的 语法 ) 一 书 ， 这 本 书 为 描述 数据 类 图 形 
提供 了 一 套 形式 化 的 、 结 构 化 的 观点 。 
尽管 本 书 很 多 内 容 是 围绕 ggplot2 写成 ， 但 这 并 不 意味 着 它 就 是 R 图 形 的 终极 归宿 。 
举例 来 说 ， 有 时 候 我 们 会 发 现 使 用 R 基础 图 形 来 观察 和 探索 数据 更 快 更 简单 ， 特 别 是 
在 数据 尚未 被 合适 地 结构 化 以 配合 ggplot2 使 用 之 前 。 有 些 任务 ggplot2 却 无 法 完成 ， 
或 是 无 法 像 其 他 的 绘图 包 做 得 那样 好 。 有 些 其 他 的 任务 ggplot2 虽然 可 以 胜任 ， 但 却 
更 适合 用 某 些 特定 的 包 来 处 理 。 不 过 在 大 多 数 场合 ， 我 相信 ggplot2 可 以 对 投入 的 时 
间 给 出 最 好 的 回报 ， 而 且 它 提供 了 美观 、 具 备 出 版 级 质量 的 输出 结果 。 

一 个 优秀 的 通用 图 形 包 是 Deepayan Sarkar 的 lattice 包 ， 这 是 一 套 格子 (trellis) 图 
形 的 实现 ， 它 包含 在 R 的 基础 安装 中 。 
如 果 你 想 对 ggplot2 有 更 深入 的 理解 ， 请 继续 阅读 吧 ! 


A.1 背景 知识 


在 数据 图 形 中 ， 存 在 着 一 种 从 数据 属性 到 视觉 属性 的 映射 〈 或 者 说 对 应 )。 数 据 属 性 
通常 是 数值 或 类 别 ， 而 视觉 属性 则 包括 点 的 x 和 ? 坐标、 线条 颜色 、 条 形 的 高 度 等 。 
不 将 数据 映射 为 视觉 属性 的 可 视 化 并 不 能 算是 数据 可 视 化 。 从 表面 上 看 ， 使 用 x 轴 上 
的 坐标 来 表示 一 个 数值 ， 可 能 看 起 来 和 使 用 某 种 带 颜 色 的 点 来 表示 一 个 数值 有 很 大 的 
不 同 ， 但 是 在 抽象 的 层面 上 ， 它 们 是 一 样 的 。 只 要 是 做 过 数据 图 形 的 人 ， 至 少 会 对 这 
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一 点 有 一 种 模糊 的 认识 。 对 于 大 多 数 人 来 说 ， 这 种 认识 也 就 停留 在 这 个 阶段 。 

对 于 “图 形 的 语法 ”理论 来 说 ， 这 种 深刻 的 相似 性 不 单单 得 到 了 承认 ， 而 且 更 是 处 于 

中 心地 位 。 在 R 的 基础 绘图 函数 中 ， 每 种 数据 属性 到 视觉 属性 的 映射 都 仅仅 是 单个 函 

数 本 身 的 特例 ， 而 且 映 射 的 变更 可 能 需要 重 构 数据 ， 或 是 键入 完全 不 同 的 绘图 命令 ， 

或 者 两 者 省 有 。 

为 了 说 明 这 一 点 ， 下 面 将 会 展示 一 幅 根据 gcookbook 包 中 的 simpledat 数据 集 绘制 的 图 形 : 
library(gcookbook) 并 为 了 使 用 数据 集 


simpledat 


Al A2 A3 
B110 7 12 
B2 9 11 6 


此 数据 可 以 绘制 一 幅 简 单 的 分 组 条 形 图 ， 各 A 值 沿 x 轴 排 布 ， 条 形 依 B 值 分 组 ( 见 
图 A-1): 
barplot (simpledat, beside=TRUE) 


il 


A-1 使 用 barplot () 绘制 的 条 形 图 


我 们 可 能 想 做 的 一 件 事 就 是 ， 调 换 数据 值 的 位 置 ， 使 得 B 值 沿 x 轴 排 布 而 A 值 用 来 分 
组 。 要 这 样 做 ， 我 们 需要 转 置 矩 阵 以 重 构 数据 : 


t (simpledat) 





0 这 中 6 下 扣押 











Bl B2 
Al10 9 
22. 7 11 
A312 6 


使 用 重 构 后 的 数据 ， 我 们 就 可 以 像 前 面 一 样 创建 图 形 了 〔 见 图 A-2): 
barplot (t (simpledat), beside=TRUE) 

另 一 方面 ， 我 们 可 能 想 使 用 线条 而 不 是 条 形 来 呈现 数据 ， 如 图 A-3 所 示 。 要 使 用 基础 图 

形 完成 这 项 任务 ， 我 们 需要 使 用 一 套 完全 不 同 的 命令 。 首 先 ， 我 们 需要 调用 plot () 来 通 
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知 RR 创建 一 幅 新 图 并 为 其 中 一 行 数据 绘制 一 条 线 ， 然 后 使 用 lines () 去 绘制 男 一 行 数据 : 


plot (simpledat [1,], type="1") 
lines (simpledat [2,], type="l", col="blue") 


bl 





0 2 进 6 8 可 和 裕 











A-2 ”数据 转 置 后 的 条 形 图 





10 11 12 


9 


8 


1.0 1.:5 2.0 2.5 3.0 











A-3 使 用 plot () 和 Lines () 绘制 的 折线 图 


结果 图 中 有 一 些 怪 异 的 地 方 。 第 二 条 〈 蓝 色 ) 线 的 下 部 超出 了 可 见 范围 ， 这 是 因为 》 轴 的 
范围 是 在 调用 plot () 函数 时 仅 为 第 一 条 线 设 定 的 。 另 外 ，x 轴 是 数值 型 而 不 是 类 别 型 。 


现在 让 我 们 来 看 看 对 应 的 ggplot2 代码 和 图 形 。 对 于 ggplot2 来 说 ， 数 据 的 结构 是 一 成 
不 变 的 : 它 要 求 的 是 “长 ”格式 的 数据 框 ， 而 不 是 之 前 使 用 的 相反 的 “ 宽 ” 格 式 。 当 
数据 为 长 格式 时 ， 每 行 表示 一 个 条 目 。 其 所 属 的 分 组 不 由 它们 在 矩阵 中 的 位 置 决定 ， 
而 是 在 一 个 单独 的 列 中 指定 。 这 是 将 simpledat 转换 为 长 格式 的 结果 : 


simpledat long 


Aval Bval value 
Al Bl1 10 


Al B2 9 
A2 Bl » 
A2 B2 11 
A3 Bl 12 
A3 B2 6 
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这 种 格式 使 用 了 不 同 的 结构 ， 表 示 的 却 是 相同 的 信息 。 长 格式 有 利 有 次 ， 但 总 的 来 
说 ， 我 发 现在 处 理 复 杂 数 据 集 的 时 候 它 能 让 事情 变 得 简单 一 些 。 关 于 宽 格 式 和 长 格式 
之 间 的 转换 方法 ， 参 见 15.19 节 和 15.20 节 。 


要 绘制 第 一 幅 分 组 条 形 图 〈 见 图 A-4)， 我 们 首先 需要 加 载 ggplot2 包 。 然 后 使 用 x=Aval 
将 aval 映射 至 x 轴 ， 使 用 fil1=Bval 将 Bval 映射 为 填充 色 。 这 样 就 使 得 各 A 值 沿 x 轴 
分 布 ， 而 让 B 值 决定 分 组 。 我 们 还 需要 使 用 y=value 将 value 映射 到 y 的 位 置 ， 即 条 形 
的 高 度 。 最 后 ， 我 们 使 用 geom_bar () 来 绘制 条 形 ( 别 担心 其 他 细节 ， 我 们 会 很 快 讲 到 ): 


library (ggplot2) 
ggplot (simpledat long, aes (x=Aval, y=value, fill=Bval)) + 








geom bar(stat="identity", position="dodge") 
12.5 4 
10.0 - 
7.5- 
o 
也 
8 50- 
2.5 9 
0.0- 
' 1 1 
Ai A2 A3 


Aval 











A-4 使 用 ggplot () 和 geom_bar () 绘制 的 条 形 图 


要 调换 位 置 ， 令 B 值 沿 x 轴 排 布 而 让 A 值 决定 分 组 〈 见 图 A-5)， 只 需 简 单 地 交换 映 
射 参 数 ， 使 得 x=Bval 且 fil1=aval 即 可 。 与 基础 图 形 不 同 的 是 ， 这 里 无 需 修 改 数据 ， 
仅 需 修改 绘图 命令 : 


ggplot (simpledat long, aes (x=Bval, y=value, fill=Aval)) + 
geom bar (stat="identity", position="dodge" 








1 ' 
B61 B2 
Bval 














A-5 ”相同 数据 交换 了 x 和 fill 映射 的 条 形 图 
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AN 你 可 能 已 经 注意 到 了 ， 在 ggplot2 中 ， 各 个 图 形 部 件 都 是 通过 操作 符 + 进 
行 组 合 的 。 你 可 以 通过 添加 组 件 的 方式 来 渐进 式 地 构建 一 个 ggplot 对 象 ， 
在 做 完 以 后 ， 就 可 以 打印 出 来 了 . 

要 将 图 A-5 所 示 的 图 修改 为 折线 图 ( 见 图 A-6)， 需 要 把 geom_bar () 修改 为 geom_ 
line () 。 同 时 使 用 参数 colour 将 Bval 映射 为 线条 的 颜色 而 非 填充 的 颜色 (注意 参数 名 
称 的 英 式 拼 法 一 一 因为 ggplot2 的 作者 是 新 西 兰 人 )。 同 样 ， 我 们 仍然 无 需 担心 其 他 细节 : 


ggplot (simpledat long, aes (x=Aval, y=value, colour=Bval, group=Bval)) + 
geom line() 





加- Bval 
2 
下 本: 


Al A2 A3 
Aval 











A-6 使 用 ggplot () 和 geom_line() 绘制 的 折线 图 


在 结合 基础 图 形 将 条 形 图 改 为 折线 图 时 ， 我 们 不 得 不 使 用 完全 不 同 的 命令 。 但 通过 
ggplo2， 我 们 仅 需 将 几何 对 象 从 条 形 改 为 线条 。 结 果 图 也 与 基础 图 形 版 有 着 重要 区 别 : 由 
于 所 有 的 线条 都 是 同时 绘制 而 非 每 次 绘制 一 条 ， 所 以 y 的 范围 已 被 自动 调整 以 适应 全 体 数 
据 ， 且 x 轴 仍 保持 为 类 别 型 而 不 会 被 转换 为 数值 型 。ggplow2 图 形 还 带 有 自动 生成 的 图 例 。 


A.2 若干 术语 和 理论 
在 更 进一步 之 前 ， 先 定义 一 些 ggplot2 中 使 用 的 术语 会 有 所 帮助 。 


。 数据 (data) 是 我 们 想 要 可 视 化 的 对 象 。 其 中 包含 了 变量 (variable)， 变 量 存储 于 
数据 框 的 每 一 列 。 

。 几何 对 象 〈geom) 是 用 以 呈现 数据 的 几何 图 形 对 象 ， 如 条 形 、 线 条 和 点 。 

。 图 形 属 性 (aesthetic) 是 几何 对 象 的 视觉 属性 ， 如 x 坐标 和 7? 坐标 、 线 条 颜色 、 点 

的 形状 等 。 

数据 的 值 和 图 形 属 性 之 间 存 在 着 某 类 映射 (mapping )。 

标 度 〈scale) 控制 着 数据 空间 的 值 到 图 形 属性 空间 的 值 的 映射 。 一 个 连续 型 的 y 标 

度 会 将 较 大 的 数值 映射 至 空间 中 纵向 更 高 的 位 置 。 

引导 元 素 (guide) 向 看 图 者 展示 了 如 何 将 视觉 属性 映射 回 数据 空间 。 最 常用 的 引导 
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元 素 是 坐标 轴 上 的 刻度 线 和 标签 。 

要 了 解 一 个 典型 的 映射 是 如 何 工 作 的 ， 可 以 来 看 一 个 例子 。 我 们 拥有 数据 ， 也 就 是 一 
组 数值 或 类 别 值 。 有 几何 对 和 象 来 表示 每 个 观测 。 我 们 有 图 形 属 性 ， 如 区 纵向 ) 的 位 置 。 
还 有 一 种 标 度 定义 了 从 数据 空间 (数值 ) 到 图 形 属性 空间 (纵向 位 置 ) 的 映射 。 一 个 
典型 的 线性 y 标 度 可 将 数值 0 映射 到 图 形 的 基线 ， 将 5 映射 到 中 间 ， 将 10 映射 到 顶端 。 
一 个 对 数 型 y 标 度 则 会 以 不 同 的 方式 放置 它们 。 

以 上 并 不 是 仅 有 的 数据 空间 和 图 形 属性 空间 。 在 抽象 的 图 形 语法 层面 ， 数 据 和 图 形 属性 可 
以 是 任何 东西 ， 在 ggplot 的 实现 中 ， 有 一 些 预定 义 的 数据 和 图 形 属性 类 型 。 常 用 的 数据 类 
型 包括 数值 、 类 别 值 和 字符 串 。 一 些 常 用 的 图 形 属 性 包括 横 纵 位 置 、 颜 色 、 大 小 和 形状 。 


要 解读 图 形 ， 看 图 者 需要 参考 引导 元 素 。 引 导 元 素 的 一 个 例子 是 包含 刻度 线 和 标签 的 
?了 轴 。 看 图 者 参考 这 个 引导 元 素 ， 以 解读 某 个 点 位 于 标 度 中 间 所 表示 的 含义 。 图 例 则 
是 另 一 类 引导 元 素 。 一 个 图 例 可 向 人 们 展示 环形 或 三 角形 的 点 所 代表 的 含义 ， 或 者 蓝 
色 或 红色 的 线条 所 代表 的 含义 。 

某 些 图 形 属性 ， 如 点 的 形状 〈 三 角形 、 环 形 、 正 方形 等 )， 仅 对 类 别 型 变量 有 效 。 某 
些 图 形 属性 则 对 类 别 型 和 连续 型 变量 都 有 效 ， 如 x (横向 的 位 置 。 对 于 条 形 图 ， 变 
量 必须 为 类 别 型 一 一 x 轴 上 放 一 个 连续 型 变量 是 毫 无 意义 的 。 对 于 散 点 图 ， 变 量 必须 
为 数值 型 。 这 些 数 据 类 型 (类 别 型 和 数值 型 ) 均 可 被 映射 到 x 位 置 的 图 形 属性 空间 ， 
但 它们 需要 不 同类 型 的 标 度 。 


优 一 在 ggplot2 术语 中 ， 类 别 型 变量 被 称 为 离散 型 变量 ， 数 值 型 变量 则 叫做 连 
续 型 变量 。 这 些 术 语 可 能 并 不 总 是 与 别处 的 用 法 相对 应 。 在 ggplot2 意义 
一 风 ， 下 的 连续 型 变量 有 时 是 常规 意义 下 的 离散 型 变量 。 例 如 ， 可 见 太阳 黑子 的 
数量 必 为 一 个 整数 ， 所 以 它 属于 数值 型 (对 于 ggplot2 来 说 是 连续 型 ) 和 

(在 日 常用 语 中 的 ) 离散 型 。 


A.3 构建 一 幅 简 单 图 形 


ggplot2 对 数据 结构 的 要 求 很 简单 : 数据 必须 存储 于 数据 框 中 ， 且 每 类 被 映射 为 某 种 图 

形 属性 的 变量 必须 独立 集中 存储 在 一 列 。 在 前 文 的 simpledat 示例 中 ， 我 们 首先 将 一 

个 变量 映射 为 图 形 属性 x， 将 另 一 个 变量 映射 为 图 形 属性 fi11 ; 然后 改变 了 变量 到 图 

形 属性 的 映射 规则 。 

我 们 将 在 这 里 演练 一 个 简单 的 示例 。 首 先 ， 创 建 一 个 含有 一 些 样 本 数据 的 数据 框 : 
dat <- data.frame (xval=1:4, yval=c(3,5,6,9), group=c ("A", "B", "A", "B")) 


dat 


xval yval group 
1 3 A 
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2 5 B 

3 6 A 

4 9 B 
一 个 基本 的 ggplot () 调用 范式 看 起 来 就 像 这 样 : 

ggplot (dat, aes (x=xval, y=yval)) 

这 样 就 使 用 数据 框 dat 创建 了 一 个 ggplot 对 象 。 同 时 也 在 aes () 中 指定 了 默认 的 图 
形 属性 映射 : 
。 x=xval 将 列 xval 映射 为 x 的 位 置 。 
。 y=yval 将 列 yval 映射 为 y 的 位 置 。 
在 我 们 赋 给 ggp1ot () 数据 框 和 图 形 属性 映射 后 ， 还 缺少 一 个 关键 的 组 件 ， 我们 需要 
通知 它 将 哪 种 几何 对 象 放 在 那里 。 此 时 ，ggplot2 尚 不 知道 我 们 是 希望 将 条 形 、 线 条 、 
点 还 是 其 他 东西 绘制 到 图 形 上 。 我 们 将 添加 geom_point () 来 绘制 点 ， 得 到 的 结果 是 


ggplot (dat, aes (x=xval, y=yval)) + geom point () 





pd el ey ed el a 
1.01.52.02.53.03.54.0 











A-7 ”基本 的 散 点 图 


如 果 想 重用 其 中 的 一 些 组 件 ， 可 以 将 其 存储 到 变量 中 。 我 们 可 以 把 ggp1ot 对 象 保存 
到 p 中 ， 然 后 向 它 添加 geom_point () 。 这 样 做 的 效果 与 之 前 的 代码 相同 : 


p <- ggplot (dat, aes (x=xval, y=yval)) 
P + geom point() 


我 们 也 可 以 通过 将 aes () 放 入 geom_point() 的 调用 中 以 将 变量 group 映射 为 点 的 颜 
色 ， 并 指定 colour=group ( 见 图 A-8): 


p + geom point (aes (colour=group)) 





9 一 二 一 二- 司 


8 ~ ES BS group 
豆 人 6 了 本 "A 
Se di dd 

4— 一 上 -一 ® B 

,a 

1.01.52.02.53.03.54.0 
XVal 








A-8 将 一 个 变量 映射 为 颜色 的 散 点 图 
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这 样 做 并 不 会 改变 我 们 之 前 在 ggplot (. ..) 内 部 定义 的 默认 图 形 属 性 映射 。 这 样 只 是 
为 特定 的 几何 对 象 ， 即 geom_point () 添加 了 一 个 图 形 属 性 映射 。 如 果 我 们 再 添加 其 
他 的 几何 对 象 ， 此 映射 将 不 对 它们 适用 。 

与 这 种 图 形 属性 映射 形成 对 比 的 是 图 形 属性 的 设置 。 这 次 ， 我 们 不 用 aes () ; 我 们 将 
直接 设置 colour 的 值 ( 见 图 A-9): 


p + geom point (colour="blue") 





I 1 T I 1 1 
1.01.52.02.53.03.54.0 
XVal 











A-9 设置 了 颜色 的 散 点 图 


我 们 也 可 以 修改 标 度 ， 也 就 是 从 数据 到 视觉 属性 的 映射 。 在 此 ， 我 们 将 改变 x 标 度 使 
其 拥有 一 个 更 大 的 范围 ( 见 图 A-10): 


P + geom point() + scale x continuous (limits=c(0,8)) 
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A-10 ”增加 了 x 范围 的 散 点 图 
如 果 回 顾 一 下 colour=group 映射 的 例子 ， 我 们 也 可 以 修改 颜色 标 度 〈 见 图 A-11): 


P + geom Point () + 
scale colour manual (values=c ("orange", "forestgreen")) 
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A-11 ”有 着 修改 过 的 颜色 和 不 同调 色 板 的 散 点 图 


每 当 我 们 修改 了 标 度 以 后 ， 引 导 元 素 也 发 生 了 变化 。 对 于 x 标 度 ， 引 导 元 素 为 x 轴 上 
的 刻度 线 。 对 于 颜色 标 度 ， 引 导 元 素 则 为 图 例 。 


316 附录 A 


注意 ， 我 们 使 用 了 + 来 将 每 部 分 连接 到 一 起 。 在 上 例 中 ， 我 们 以 + 结束 一 行 ， 然 后 在 下 一 
行 添加 更 多 内 容 。 如 果 你 要 写 多 行 ， 则 必须 将 + 放 在 每 行 的 末尾 ， 而 不 是 放 在 下 一 行 的 开 
始 。 和 否则 ，R 解析 器 将 无 法 得 知 会 有 更 多 语句 出 现 ; 它 会 认为 表达 式 已 经 结束 并 对 其 求 值 。 


A.4 打印 输出 


在 RR 基础 图 形 中 ， 绘 图 函数 会 告诉 R 将 图 形 绘制 到 输出 设备 〈 屏 幕 或 者 文件 ) 上 。 
ggplot2 略 有 不 同 : 所 用 的 命令 并 不 直接 将 图 形 绘制 到 输出 设备 上 。 相 反 ， 函 数 用 于 构 
造 图 形 对 象 ， 只 有 在 像 print (object) 这 样 使 用 print () 函数 时 图 形 才 会 被 绘制 。 你 
可 能 会 想 ,“ 等 等 ， 我 还 没 告诉 R 打印 任何 东西 呢 ， 它 自己 就 画 出 了 这 些 图 啊 ! ”然而 ， 
这 不 尽 然 正确 。 在 R 中 ， 当 你 在 命令 提示 符 下 键入 命令 以 后 ， 实 际 上 发 生 了 两 件 事 情 : 
首先 ， 这 条 命令 得 以 执行 ， 然 后 ， 针 对 这 条 命令 的 返回 结果 又 执行 了 print ()。 

交互 式 R 提示 符 下 的 表现 与 执行 一 个 脚本 或 函数 时 的 表现 有 所 不 同 。 在 脚本 中 ， 命 令 
不 会 被 自动 打印 出 来 。 函 数 的 情况 相同 ， 但 是 有 一 个 小 陷阱 ， 函 数 中 最 后 一 个 命令 的 
结果 将 被 返回 ， 所 以 如 果 你 从 R 提示 符 中 调用 函数 ， 最 后 一 个 命令 的 结果 将 被 打印 出 
来 ， 因 为 它 是 整个 函数 的 执行 结果 。 


A 某 些 ggplot2 的 介绍 会 使 用 一 个 叫做 gplot () 的 函数 ， 它 可 以 作为 一 种 方 
[人 便 的 接口 来 绘制 图 形 。 使 用 它 确实 比 使 用 ggplot () 加 一 个 几何 对 象 需要 
一 4 内， 更 少 的 键入 ， 但 我 发 现 它 用 起 来 有 点 混乱 ， 因 为 它 指 定 特 定 绘图 参数 的 方 
式 有 些许 不 同 。 我 认为 还 是 直接 使 用 ggplot () 更 加 简单 容易 。 
A.5 统计 变换 


在 将 数据 映射 到 图 形 属性 之 前 ， 有 时 必须 对 其 先 做 变换 或 汇总 。 确 实 如 此 ， 例 如 对 于 
直方 图 来 说 ， 样 本 点 先 被 分 组 然后 进行 计数 。 每 组 的 计数 值 用 以 指定 一 个 条 形 的 高 
度 。 有 些 几 何 对 象 ， 如 geom_histogram()， 会 自动 为 你 做 好 这 些 事情 ， 但 有 些 情况 下 
你 也 会 希望 使 用 各 种 stat_xx 函数 来 自己 做 这 些 事 。 


A.6 主题 


图 形 外 观 的 某 些 方面 超出 了 图 形 语法 的 范围 。 其 中 包括 绘图 区 的 背景 颜色 和 网 格 线 、 
坐标 轴 标 签 和 图 形 标题 文字 使 用 的 字体 。 这 些 细节 是 通过 theme () 函数 来 控制 的 ， 已 
在 第 9 章 讨论 。 


A.7 结语 


但 愿 现在 的 你 已 经 对 ggplot2 幕后 的 概念 有 了 一 定 的 认识 。 本 书 的 其 余部 分 将 会 向 你 
展示 如 何 使 用 它 ! 
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封面 介绍 


本 书 封面 上 的 动物 是 “驯鹿 ”( 学 名 角 鹿 )， 在 北美 地 区 称 为 北美 驯鹿 ， 是 栖息 于 北极 
和 亚 北极 地 区 的 一 个 应 种 。 驯 鹿 堪 称 是 为 恶劣 、 寒 冷 的 环境 而 生 ， 因 为 它们 的 皮毛 、 
昔 角 、 嗅 觉 、 蹄 子 和 视力 已 经 全 然 适 应 了 低温 环境 。 


驯鹿 的 皮毛 由 一 个 长 满 直立 、 中 空 、 管 状 毛 的 外 部 皮层 和 充满 类 羊毛 的 底部 皮层 组 
成 。 前 者 能 较 好 地 隔离 冷 空气 并 提供 水 中 的 浮力 。 这 种 皮毛 的 绝热 效果 极 佳 ， 当 驯鹿 
赚 卧 在 雪 地 上 时 ， 能 不 令 积 雪 融化 。 驯 鹿 是 唯一 一 个 雌雄 个 体 〈 包 括 应 仔 ) 皆 长 有 昔 
角 的 鹿 种 ， 在 现存 的 所 有 鹿 种 中 ， 相 对 于 体型 而 言 ， 驯 鹿 拥 有 的 攻 角 最 大 。 它 的 昔 角 
每 年 脱落 一 次 ， 新 昔 角 会 在 转 年 的 春天 和 夏天 长 出 来 。 

驯鹿 的 蹄 子 随 季节 而 变 : 夏季 ， 若 原 和 柔软 湿润 ， 蹄 垫 会 变 成 类 海绵 状 并 提供 额外 的 奔 
跑 动 力 ; 冬季 ， 蹄 垫 会 收缩 变 紧 ， 显 露出 蹄 子 的 边缘 ， 驯 鹿 利 用 这 些 边缘 抓 进 冰 层 
和 积 雪 层 以 防止 打滑 。 这 也 使 驯鹿 能 够 从 积 雪 中 挖 出 〔( 常 说 的 挖 坑 〉 它 们 想 吃 的 食 
物 一 一 一 种 名 为 石 苞 的 青 苦 《〈 即 驯鹿 若 )。 

2012 年 ， 英 国 伦敦 大 学 学 院 的 研究 者 发 现 ， 驯 鹿 是 唯一 一 种 能 够 看 到 紫外 线 的 哺乳 动 
物 。 人 类 的 视觉 只 能 看 到 波长 在 400 nm 以 上 的 光线 ， 驯 鹿 的 视觉 范围 则 低 至 320 nm。 
虽然 这 一 范围 仅仅 覆盖 了 我 们 基于 黑光 帮助 下 所 能 看 见 的 所 有 光谱 的 一 部 分 ， 但 已 足 
以 帮助 驯鹿 在 北极 的 炽 白光 线 中 看 清 东 西 。 如 果 没 有 这 一 点 ， 驯 鹿 将 难以 做 到 。 


在 圣诞 老人 的 故事 里 ， 会 飞 的 驯鹿 拉 着 圣诞 老人 的 雪 权 。 驯 鹿 这 一 意象 最 早出 现在 1823 
年 一 首 名 为 《 圣 尼古拉斯 的 来 访 》 的 诗 中 。 在 这 首 诗 中 ， 驯 鹿 被 称 猛 冲 者 (Dasher)、 
舞 者 、 欢 腾 、 凶 婆娘 、 芷 星 、 丘 比特 、 顿 德尔 (Dunder) 和 比 利 斯 克 米 (Blixem)。 


封面 图 片 来 自 肖 的 《动物 学 》。 
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R 数 据 可 视 化 手册 


本 书 提供 了 快速 绘制 高 质量 图 形 的 150 多 个 精 选 的 技巧 ， 读 者 不 需 
要 了 解 R 绘 图 系统 的 全 部 细节 便 可 以 掌握 这 些 技巧 。 这 里 的 每 个 
技巧 都 针对 一 个 具体 问题 。 其 中 ， 讨 论 环节 还 解释 了 “如 何 ” 以 
及 “为 什么 ”如 此 绘图 ， 读 者 可 酌情 将 其 套用 到 自己 的 项 目 中 。 

本 书 中 的 大 多 数 方法 使 用 的 是 以 强大 、 灵 活 制图 而 著称 的 ggplot2 
包 。 如 果 读 者 对 R 语 言 有 基本 的 了 解 ， 便 可 以 开始 学 习 R 中 丰富 的 
数据 可 视 化 方法 了 。 


目 使 用 R 中 的 基础 图 形 来 快速 探索 数据 

目 绘制 各 种 柱状 图 、 线 图 、 散 点 图 

卓 用 直方 图 、 密 度 曲 线 、 箱 线 图 和 其 他 图 形 来 描述 数据 的 分 布 
加 为 图 形 添加 注解 ， 帮 助 读 图 者 更 好 地 理解 数据 

晶 控制 图 形 的 整体 外 观 

时 分 组 绘制 图 形 以 便于 对 比 数 据 

四 绘图 色彩 的 选择 

昌 绘制 网 络 图 、 热 图 、3D 散 点 图 

是 把 数据 整理 成 绘图 所 需 的 格式 


Strata 是 新 兴 的 人 员 、 工 具 和 技术 的 生态 系 
统 ， 它 使 用 海量 数据 来 支持 智能 化 决策 。 


Strata 


Making Data Work 





“这 本 书 首先 介绍 了 绘制 常规 图 
形 的 方法 ， 然 后 展示 了 如 何 将 
它们 调整 为 符合 读者 需要 的 图 
形 。 它 不 仅 是 R 可 视 化 方面 的 
优秀 读物 ， 更 以 丰富 的 案例 为 
我 们 提供 了 绘制 图 形 的 灵感 源 
泉 。” 


一 一 Hadley Wickham 
莱 斯 大 学 助理 教授 
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RStudio 的 软件 工程 师 ， 致 力 
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发 工具 的 研发 。 他 创立 的 网 
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